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(54) Bezeichnung: DAS GENOM DES HTV-1 INTERSUBTYPS (C/B*) UND SEINE ANWENDUNGEN 

tN 

^ (57) Abstract: The invention relates to a polynucleotide, comprising a nucleic acid sequence according to SEQ ID NO: I, 2 or 
^f, 3, fragments or derivatives thereof, or a polynucleotide hybridised with the nucleic acid sequence according to SEQ ID NO:l, 2 
^ or 3. The invention further relates to polypeptides coded from said nucleotide sequence, or fragment, or derivative of the nucleic 
V© acid sequence according to SEQ ID NO:l, 2 or 3. The polynucleotides and polypeptides may be used as medicaments, vaccines or 
diagnostics, in particular for the treatment, prophylaxis and diagnosis of HIV infections. 

(57) Zusammenfassung: Die vorliegende Erfindung betrifft ein Polynukleotid, umfassend eine Nukleinsauresequenz gemass SEQ 
ID NO:l, 2 odcr 3 oder dcssen Fragment odcr Derivat, odcr cin Polynukleotid, das mit der Nukleinsaurcsequenz gemass SEQ ID 
Q NO: 1, 2 odcr 3 hybridisicrt. Die vorliegende Eriindung betrifft ferner Polypeptide, kodicrt von der Nukleotidsequenz odcr Fragment 
oder Derivat der Nukleotidsequenz gemiiss SEQ ID NO: 1 , 2 oder 3. Die Polynukleotide und Polypeptide kdnnen als Arzneimittel, 
Impfstoffe oder Diagnostika, insbesondere fur die Behandlung, Prevention und Diagnose von HIV-Infektionen, verwendet werden. 
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Das Genom des HIV-1 Intersubtyps (C/B') und seine Anvvendungen 

Die vorliegende Erfindung betrifft ein Polynukleotid, umfassend eine Nukleinsauresequenz 
gemaB SEQ ID NO:l, 2 oder 3 oder dessen Fragment oder Deri vat, oder ein Polynukleotid, das 
10 mit der Nukleinsauresequenz gemaB SEQ ID NO:l, 2 oder 3 hybridisiert. Die vorliegende 
Erfindung betrifft femer Polypeptide, kodiert von der Nukleotidsequenz oder Fragment oder 
Derivat der Nukleotidsequenz gemaB SEQ ID NO:l, 2 oder 3. Die Polynukleotide und 
Polypeptide konnen als Arzneimittel, Impfstoffe oder Diagnostika, insbesondere fiir die 
Behandlung, Prevention und Diagnose von HIV-Infektionen, verwendet werden. 

15 

In Anbetracht des AusmaBes und der globalen Verbreitung der durch das humane 
Immundefizienz Virus (HIV) verursachten Pandemie mit einer, bis zum Ende dieses 
Jahrhunderts, geschatzten Anzahl von weltweit mehr als 40 Millionen Infizierten (davon mehr 
als 90% in Entwicklungslandern) stellt die Entwicklung einer wirksamen HTV-Vakzine eine der 

20 groBten Herausforderungen an die modeme industrialisierte Welt dar. Bislang wird die 
Entwicklung eines erfolgreichen HIV-Impfstoffs jedoch noch immer durch die komplizierte 
Biologie des Virus sowie seine komplexe Interaktion mit dem Immunsystem des Wirtes limitiert. 
Die wenigen Impfstoff-Kandidaten, die bis zum heutigen Zeitpunkt in Entwicklungslandern in 
Phase 3-Studien ausgetestet wurden, basierten hauptsachlich auf den extemen Gykoproteinen 

15 gpl20 oder gpl60 von HIV Typ-1 . Der Ausgang der Studien war jedoch eher enttauschend: Die 
Impfstoffe waren nicht nur nicht in der Lage, breit kreuz-neutralisierende AntikSrper- und T- 
Zell-Reaktionen hervorzurufen. Sie konnten nicht einmal Infektionsdurchbriiche verhindern, die 
bei einigen Impflingen beobachtet worden sind. Einer der Griinde fiir dieses Versagen liegt 
sicherlich in den extensiven Sequenzvariationen zwi-schen den verwendeten Antigenen, welche 

i0 von laboradaptierten Virusstammen abstammten, und den genetisch divergenten Viren, welche 
in den Testregionen (z.B. Thailand) kursierten. 

Phylogenetische Analysen der weltweit zirkulierenden HIV-Stamme haben eine Hauptgruppe 
(M) mit 10 verschiedenen Sequenz-Subtypen (A- J) (Kostrikis et al 1995; Leitner und Albert, 
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1995; Gaywee et al 1996; World Health Organisation Network for HIV Isolation and 
Characterization, 1994), die im Hiillprotein Sequenzvariationen von bis zu 24 % aufweisen, und 
auBerdem die Vireh der O-Gruppe identifiziert, die sich in einigen Leserahmen urn mehr als 40 
% von den Viren der M-Gruppe unterscheiden (Loussert Ajaka et al 1995; Myers et al 1996; 
5 Sharp et al 1995; Sharp et al 1999). Zudem entwickelt sich HIV durch die rasche Anhaufung 
von Mutationen und Intersubtyp-Rekombinationen immer weiter. Unterschied-liche Subtypen, 
welche innerhalb der Population einer geographischen Region kozirkulieren, stellen die 
molekulare Grundlage fur die Erzeugung und Ausbreitung von gruppenttbergreifenden 
Intersubtyp-Mosaikviren dar. Obwohl die weitweit verbreiteten HIV-l-Varianten durch Serologic 
10 und Heteroduplex-DNA-Analysen intensiv untersucht wurden, beruhen die meisten 
phylogenetischen Analysen auf Sequenzen des Hiillproteins, da fur viele der prSvalenten 
Subtypen und eine Vielzahl von rekombinanten Formen keine vollse-quenzierten Genome 
vorliegen. 

15 Fur die iiberwiegende Mehrheit der weitweit neuen HIV-1-Infektionen sind Viren des Subtyps 
Non-B (also Mc/if-B-Varianten) verantwortlich. Den Viren des Subtyps C fallt dabei im Hinblick 
auf die Gesamtzahl von Infizierten sowie der weiten Verbreitung von Neu-Infektionen, 
insbesondere in Siid-Amerika und Asien, eine herausragende Rolle zu. Auf Grund dessen hat die 
Charakterisierung von Viren des Subtyps C eine herausragende Prioritat fur diagnostische, 

20 therapeutische oder preventive Zwecke. 

Mit Ausnahme von Thailand lagen bis vor kurzem nur begrenzte Informationen uber die 
Verteilung und molekulare Charakteristik von in Asien vorkommenden HTV-l-Stammen vor. 
Nach Schatzungen der WHO breitet sich HIV am schnellsten in Sud- und Siidost-Asien aus, 

25 welche schon bald die weitweit groBte Region mit HIV-Epidemie sein wird. China unterliegt 
ahnlichen sozialen und okonomischen Strukturen und unterhalt zu diesen Regionen unmittelbare 
ethnische und wirtschaftliche Verbindungen. In vielen Provinzen Chinas konnte seit Anfang 
1995 ein rasanter Anstieg von HIV-Infektionen beobachtet werden. Verglichen mit alien von 
1985 bis 1994 dokumentierten 1774 Fallen an HIV und AIDS, wurden im Jahr 1995 alleine 

30 schon 1421 Falle und im Jahr 1997 mehr als 4000 Falle nachgewiesen. Die WHO geht von mehr 
als 400.000 HIV-Infektionen in China bis Ende 1997 aus, mit bis dahin 6400 Todesfalien und 
einer geschatzten Anzahl von 4000 Todesfalien allein im Jahre 1997. Im kiirzlich 
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veroffentlichten nationalen HIV-Molekularepidemiologischen Bericht wurde gefiinden, daB die 
Thai-Stamme des Prototyp-Subtyps B und des Subtyps B' in Yunnan, einer Provinz im 
Sudwesten von China, die angrenzt an das Drogendreieck von Myanmar, Laos und Thailand 
(Graf et al. 1998), durch Benutzer von Drogen und durch Sammelstellen fiir kontarainiertes Blut 
5 und Plasma bis nach Zentral- und Ost-China verbreitet wurden. In den fruhen 90er Jahren wurde 
dann in die gleiche Region eine zweite Epidemie eingeschleppt, sehr wahrscheinlich durch mit 
Stammen des Subtyps C infizierte indische IDUs (intravenous drug user), also Menschen aus 
Indien, die Drogen intravenos verwenden (Luo et al 1995; Shao et al 1999). Innerhalb weniger 
Jahre verbreiteten sich die Viren des Subtyps C durch Drogenschmuggel schnell in Slid-, Zentral- 

10 und sogar in Nordwest-China und verursachten eine weitere Verbreitung der Epidemie innerhalb 
Chinas. Einem kiirzlich veroffentlichten nationalen HIV-Molekularepidemiologischen 
Untersuchungsbericht zufolge sind fast alle mit Viren des Subtyps C infizierten Personen IDUs 
und machen damit etwa 40% aller HIV-infi-zierten IDUs in China aus. Das legt nahe, daB die 
Viren des Subtyps C zu den wichtigsten Subtypen von HIV-1 zahlen, die unter IDUs in China 

15 prevalent sind (Shao et al. 1998, Shao et al. 1994). 

Dies legt nahe, daB sich die HIV-Epidemie unter den IDUs in China innerhalb weniger Jahre von 
einem einzelnen vorherrschenden Subtyp (B) auf mindestens 2 vorherrschende Subtypen, B-Thai 
und C, ausgeweitet hat, was die Moglichkeit der Intersubtyp-Rekom-bination erhoht. Nach 

20 unserem bisherigen Kenntnisstand iiber Variability und Antigenizitat unterschiedlicher Virus- 
Stamme sollten Diagnostika, Therapeutika und Impfstoffe auf regio-nale Virus-Stamme 
angepasst sein. Die Anzahl molekularer Reagenzien fur Viren des Mc^-B-Subtyps sind jedoch 
noch extrem limitiert. AuBer fiir Viren des Subtyps B oder C sind bis-lang nur wenige nicht- 
rekombinante molekulare Klone und wenige Mosaikgenome verfiigbar. Was HI- 1 -Viren des 

25 Subtyps C betrifft, sind bislang nur nicht-rekombinante Vertreter und vier A/C-Rekombinanten 
publiziert, die alle aus Afrika, Siid-Amerika oder Indien stammen (Luo et al 1995; Gao et al 
1998; Lole et al 1999). Dariiberhinaus beschranken sich die bislang gesammelten Daten iiber 
Viren des Subtyps C in China auf genetische Subtypisierungen des env-Gens (Luo et al 1995; 
Yu et al 1997; Salminen et al 1 995). 

30 

Mehrere klinische Studien zur Bek&npfung von HIV-Infektionen wurden bislang mit Vakzinen 
durchgefiihrt. Die enttauschenden Ergebnisse, die bei klinischen Studien beobachtet wurden, 
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beinhalten wiederholt berichtete Infektionsdurchbriiche bei den Impflingen. Dies wurde vor 
allem auf die umfangreichen Sequenzvariationen zwischen den verabreichten Hiillproteinen und 
dem infektiosen Input- Virus zuruckgeftihit, was tatsachlich vorwiegend auf eine unzureichende 
Charakterisierung der in einer bestimmten geographischen Region zirkulierenden 
5 Vinispopulation zuriickzufuhren ist. Dies resultierte in der Erzeugung von humoralen und - in 
geringerem Ausmafi - von zellvermittelten Immunantworten gegen virale Antigene, welche nicht 
relevant waren fxir die in der Population des Testgebietes zirkulierenden Viren. Zudem konnte 
gezeigt werden, daB gering affine, spezifisch gegen das Hiillprotein gerichtete Antikorper nicht 
nur keine neutralisisierenden Eigenschaften besitzen, sondern daniberhinaus sogar zu einer 
10 Verstarkung der Infektion mittels Komplement- oder Fc-Rezeptor beitragen. Desweiteren 
enviesen sich die ausgewahlten Antigene und Ver-abreichungssysteme als extrem schwach fur 
die Induktion der zellvermittelten Immunantwort. 

Angesichts eines Mangels an genauer Kenntnis uber Subtyp-ubergreifende protektive 
15 Immunantworten sowie uber die komplexe Situation in Entwicklungslandern, wo bekannter- 
maBen viele Subtypen von HIV-1 kozirkulieren, soilten Impfstoff-Praparationen Mischungen von 
reprasentativen Antigenen enthalten. Somit besteht also ein Bedarf an der Isolierung und 
Charakterisierung von Viren des Subtyps C, insbesondere fur die Klonierung der kodierenden 
Region. 

20 

Die Aufgabe der vorliegenden Erfindung wird durch den in den Patentanspruchen definierten 
Gegenstand gelost. 

Die nachfolgenden Figuren erlautern die vorliegende Erfindung. 

25 

Figur 1 zeigt eine Darstellung der phylogenetischen Verwandtschaft der das env-Gen C2V3 
kodierenden Region des Klons 97cn54 zu den Vertretern der wichtigen Subtypen von HIV-1 (M- 
Gruppe). "cn-con-c M steht fur die env-Konsensussequenz der HIV-1-Stanmme des Sub-typs C, 
welche in China prevalent sind. Der phylogenetische Stammbaum wurde mittels der "neighbour 
30 joining" -Mcihode erstellt. Die Werte an den Knoten geben die "bootstraps" in % an, welche die 
Eingruppierung rechts unterstutzt. Nur n bootstrap" '-Werte, die 70% erreichen oder uberschreiten, 
sind angegeben. Die Klammern rechts stellen die Sequenzen der wichtigsten Subtypen von 
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Figur 2 zeigt eine Darstellung der RIP-Analyse (Recombinant Identification Program), Version 
1.3, des gesamten fur gagpol kodierenden Bereichs von 97cn54 (FenstergroOe: 200, 
5 Schwellenwert flir die statistische Signifikanz: 90%, Umgang mit Liicken: STRIP). Die 
Positionen der offenen Leserahmen von gag und pol sind durch Pfeile im Diagramm oben 
dargestellt. Die RIP-Analyse basierte auf Hintergnindvergleichen unter Verwendung von 
Referenzsequenzen, die von ausgewahlten Virus-Stammen abstammten, die die wichtigsten 
Subtypen von HIV-1 darstellen. Standardvertreter sind durch verschiedene Farben markiert, wie 
10 angezeigt. Die x-Achse gibt die Nukleotid-Positionen entlang des Sequenzvergleichs an. Die y- 
Achse gibt die Ahnlichkeit von 97cn54 mit den aufgelisteten Referenz-Subtypen an. 

Figur 3 zeigt eine Darstellung der phylogenetischen Verwandtschaft verschiedener Regionen 
innerhalb der von 97cn54 abgeleiteten Leserahmen von gagpol mit Standard-Vertretern der 

15 wichtigsten Subtypen von HIV-1 (M-Gruppe). Unter Verwendung der "neighbour joining"- 
Methode basierend auf den folgenden Sequenzabschnitten: (A) Nukleotide 1-478, (B) 479-620, 
(C) 621-129Q, (D) 1291-1830, (E) 1831-2220, (F) 2221-2520 und (G) 2521-2971 wurden 
phylogenetische Stammbaume erstellt. Die angegebenen Positionen beziehen sich auf das erste 
Nukleotid des offenen Leserahmens von gag. Graue Bereiche kennzeichnen Cluster der 

20 analysierten Sequenzen entweder mit von Subtyp C (A, C, E, G) oder von Subtyp B (B, D, F) 
abgeleiteten Referenzstammen. Die Werte an den Knoten geben die M bootstrap" -Werte in 
Prozent an, durch die das Cluster rechts bestatigt wurde. Es werden nur "bootstrap" -Werte von 
70% oder mehr gezeigt. 

25 Figur 4 zeigt eine Darstellung der RIP-Analyse, Version 1.3, von verschiedenen Regionen von 
97cn54 (FenstergroBe: 200, Schwellenwert fur die statistische Signifikanz: 90%, Umgang mit 
Liicken: STRIP). Die Analyse umfafite (A) einen Sequenzbereich von 1500 bp Lange vom 
Startkodon des vif-Gens bis zum 5-Ende von env einschlieBIich vif, vpr, dem ersten Exon von 
tat und rev, vpu und den ersten 200 bp des env-Gens und (B) ein etwa 700 bp langes Fragment, 

30 das 300 bp vom 3'-Ende von env, die das komplette nef-Gen und Teile der 3'-LTR-Region 
umfassen, iiberlappt. Die Positionen der Startkodons vpr, tat, vpu, env, nef und das 5-Ende der 
3-LTR-Region sind jeweils oben in den Diagrammen durch Pfeile gekennzeichnet. Die RIP- 



WO 01/36614 PCT/DEOO/04073 

6 

Analyse basierte auf Hintergrund-Vergleichen unter Verwendung von Sequenzen, die von 
ausgwahlten Virusstammen abgeleitet waren, die die wichtigsten Subtypen von HIV-1 
reprasentierten. Die angegebenen Standardvertreter sind durch verschiedene Farben 
. gekennzeichnet. Die x-Achse gibt die Nukleotidpositionen entlang des Sequenzvergleichs an. 
5 Die y-Achse gibt die Ahnlichkeit von 97cn54 rait den aufgelisteten Referenz-Subtypen an. (C) 
und (D) zeigen RIP-Analysen von Sequenzen von zwei unabhangigen C-Isolaten (xj24 und 
xj 158) aus China, die das vpr- und vpu-Gen einschliefllich des ersten Exons von tat iiberlappen. 

Figur 5 zeigt die Analyse eines phylogenetischen Stammbaums. Phylogenetische Stammbaume 
1 0 wurden unter Verwendung der "neighbour joining" -Methods erstellt basierend auf (A) einem 380 
bp langen Fragment, das 150 bp vom 3'-Ende des vpr-Gens bis zum Ende des vpu-Leserahmens 
uberlappt, (B) den ersten 290 bp der kodierenden Region von nef und (C) auf den 320 bp am 3'- 
Ende des nef-Gens. Die Werte an den Knoten geben die " bootstrap" -Werte in Prozent an, druch 
die das Cluster rechts bestatigt wurde. Es werden nur "bootstrap" -Werte von 70% oder mehr 
15 gezeigt. Die Klammem rechts stellen die wichtigsten Subtyp-Sequenzen von HTV-1, Gruppe M, 
dar. 

Figur 6 ist eine schematische Darstellung der mosaikartigen Organisation des Genoms von 
97cn54. 

20 

Figur 7 ist eine Darstellung des Vergleichs zwischen bekannten und experimentell 
nachgewiesenen CTL-Epitopen des Prototyps B (HIV-Ilai) und den entsprechenden 
Aminosaure-Sequenzen der Polypeptide gag, pol und env des Stammes 97cn54 vom Subtyp C. 
Die fiinktionellen Domanen in GAG (pl7 Matrix, p24 Kapsid, pl5 Nukleokapsid und Linker- 

25 Protein), POL (PR Protease, RT Reverse Transkriptase, IN Integrase) und ENV (gpl20 auBeres 
Glykoprotein, gp41 Transmembranprotein) sind entsprechend bezeichnet. Die Zahlen unterhalb 
der offenen Leserahmen geben die Aminosaure-Position relativ zu den aminoterminalen Enden 
der Polypeptide an. Haplotyp-Restriktionen der bekannten CTL-Epitope von HIV-Ilai sind am 
linken bzw. rechten Rand angegeben. Die griinen Balken kennzeichnen Sequenz-Identitat 

30 zwischen dem bekannten Epitop und der ensprechenden Sequenz vom Subtyp C, blaue Balken 
bedeuten 2 oder weniger konservative Fehlpaarungen. Rote Balken stellen vom Subtyp C 
abgeleitete Sequenz-Bereiche mit mehr als 2 konservativen Fehlpaarungen oder nicht- 
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konservative Substitutions im Vergleich zu dem entsprechenden von LAI abgeleiteten Epitop 
dar. 

Figur 8 zeigt die vollstandige kodierende Nukleotidsequenz von 97cn54 von HTV-1, Subtyp C 
5 (SEQ ID NO:l), mit den entsprechenden Aminosauren im Einbuchstaben-Kode. Alle 3 
Leserahmen sind angegeben. Die Sternchen stellen Stopp-Kodons dar. 

Figur 9 zeigt in einer Darstellung das Ergebnis der Aktivitaten zytotoxischer T-Zellen in 
Milzzellen von BALB/c Mausen nach intramuskularer Immunisierung mit den angezeigten 

10 DNA-Plasmiden. Lymphoide Zellen, gewonnen 3 Wochen nach der Primarimmunisierung aus 
jeweils 5 Mausen pro Gruppe, wurden mit AMQMLKETI (Einbuchstabencode) Gag-Peptid 
beladenen syngenen P815 Mastozytom Zellen (bestrahlt mit 20,000 rad) kokultiviert. Kontrollen 
schlossen Milzzellen nicht-immunisierter Mause, stimuliert mit Peptid-beladenen P815 Zellen 
ein. Zytotoxische Effektor-Zellpopulationen wurden nach einer 5-tagigen Kultur in vitro geerntet. 

15 Die zytotoxischen Antworten wurden gegen A20 Zellen, beladen mit dem oben aufgefuhrte 
nonameren Peptid oder gegen unbeladene A20 Zellen, in einem Standard 5I Cr Freisetzungstest 
ausgelesen. Die gezeigten Daten reprasentieren die Mittelwerte aus jeweils Dreifachansatzen. Die 
ermittelten Standardabweichungen lagen jeweils unter 15% gemessen am Mittelwert. 

20 Die Begriffe "Epitop" oder "Antigene Determinante", wie nachfolgend verwendet, bedeuten eine 
immunologisch determinante Gruppe eines Antigens, das spezifisch von einem Antikorper 
erkannt wird. Ein Epitop kann Aminosauren in raumlicher oder diskontinuierlicher 
Konformation umfassen und umfafit mindestens 3, vorzugsweise mindestens 5, Aminosauren. 
Ein Epitop kann auch ein einzelnes Segment einer Polypeptid-Kette umfassend eine 

25 kontinuierliche Aminosaure-Sequenz umfassen. 

Der Begriff "Polynukleotid", wie nachfolgend verwendet, bezieht sich auf ein einzel- oder 
doppelstrangiges Heteropolymer aus Nukleotid-Einheiten beliebiger Lange, wobei diese ent- 
weder Ribo- oder Desoxyribonukleotide sein konnen. Der Begriff umfafit auch modifizierte 
30 Nukleotide. 
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Der Begriff "Derivat", wie nachfolgend verwendet, bezeichnet eine Nukleinsaure, die ebenfalls 
das oder die Polypeptide kodiert, die von einer anderen Nukleotidsequenz kodiert werden, 
obwohl sich ihre Nukleotidsequenz von der anderen Nukleotidsequenz unterscheidet. In diesem 
Sinne bezeichnet der Ausdruck „Derivat" auch Aquivalente der anderen Nukleotidsequenz, die 
5 aufgrund der Degeneration des genetischen Codes vorliegen. Unter den Begriff Derivat fallen 
z.B. Nukleinsauren, die die gleichen Polypeptide wie die Nukleotidsequenz gemaB SEQ ID 
NO:l, 2 oder 3 kodieren, aber eine andere Nukleotidsequenz aufweisen, oder es fallen ferner 
Nukleinsaure-Fragmente unter den Begriff, die das gleiche Polypeptid kodieren wie 
Nukleinsaure-Fragmente der Nukleotidsequenz gemaB SEQ ID NO:l, 2 oder 3. 

10 

Der Begriff "Polypeptid", wie nachfolgend verwendet, bezieht sich auf eine Kette von min- 
destens 2 Aminosaure-Resten, die durch Peptidbindungen miteinander verbunden sind. Der 
Begriff umfaflt daher alle Aminosaure-Ketten, z.B. Oligopeptide und Proteine. Der Begriff 
bezieht sich auch auf solche Aminosaure-Ketten, bei denen eine oder mehrere Aminosaure(n) 
1 5 modifiziert ist(sind), z.B. durch Acetylierung, Glykosylierung oder Phosphorylierung. 

Der Begriff "kontinuierliche Sequenz" und "Fragmente", wie nachfolgend verwendet, bezieht 
sich auf einen linearen Abschnitt von Nukleotiden oder Aminosauren, der von einer Referenz- 
Sequenz stammt, z.B. von den Sequenzen der vorliegenden Erfindung, wie sie in dem 
20 Sequenzprotokoll wiedergegeben sind. 

Der Begriff "selektive Hybridisierung" bzw. "selektiv hybridisierbar", wie nachfolgend 
verwendet, bezieht sich auf Hybridisierungsbedingungen, bei denen zwei Polynukleotide unter 
stringenten Hybridisierungsbedingungen Duplex-Nukleotidmolekule bilden. Diese Bedingungen 
25 sind im Stand der Technik bekannt und z.B. in Sambrook et al., Molecular Cloning, Cold Spring 
Harbour Laboratory (1989), ISBN 0-87969-309-6 beschrieben. Beispiele fiir stringente 
Hybridisierungsbedingungen sind: (1) Hybridisierung in 4 x SSC bei 65°C oder (2) 
Hybridisierung in 50% Formamid in 4 x SSC bei 42°C, jeweils gefolgt von mehreren 
Waschschritten in 0,1 x SSC bei 65°C (1 Stunde lang). 

30 

Der Begriff "viraler Vektor " oder "bakterieller Vektor", wie nachfolgend verwendet, bezieht sich 
auf gentechnisch veranderte Viren oder Bakterien, mit denen sich die in den SEQ ID NO:l> 2 
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Oder 3 ausgefiihrten DNA-Sequenzen, davon abgeleitete Derivate, Fragmente, Sequenzen 
kodierend fiir Epitope oder Epitop-Strings in unterschiedliche Zellen, bevorzugt in 
antigenprasentierende Zellen wie beispielsweise Dendritische Zellen einbringen lassen. Ein 
bakterieller Vektor kann dariiber hinaus geeignet sein, ein von SEQ ID NO:l, 2 oder 3 kodiertes 
5 Polypeptid, davon abgeleitete Epitope oder Epitop-Strings direkt zu exprimieren. 

Ein Aspekt der vorliegenden Erfindung betrifft eine Nukleotidsequenz, wie sie in SEQ ID NO: 1, 
SEQ ID NO: 2 oder SEQ ID NO: 3 beschrieben ist. Zunachst wurde eine molekulare 
Epidemiologie-Studie unter mehr als 100 IDUs aus China, die seropositiv beziiglich des Subtyps 

10 C von HTV-1 waren, durchgefuhrt, um notwendige Informationen zu sammeln uber 
representative virale Genome von im wesentlichen voller Lange. Die Genotypisierung auf der 
Basis der konstanten Region 2 und der variablen Region 3 (C2V3) innerhalb des Gens fiir das 
virale Hiill-Glykoprotein offenbarte die hochste Homologie der am meisten pravalenten 
Virusstamme, die in ganz China zirkulieren, zu Sequenzen des Subtyps C indischen Ursprungs. 

15 Basierend auf diesen Ergebnissen wurde aus peripheren mononuklearen Blutzellen (PBMC) von 
einem ausgewahlten HIV-infizierten DDU direkt ein Genom von im wesentlichen voller Lange 
amplifiziert und subkloniert, das die am meisten pravalente Klasse der C-Stamme, die in ganz 
China zirkulieren, darstellt. Die Sequenzanalyse identifizierte eine Mosaikstruktur, was auf 
extensive Intersubtyp-Rekombinationsvorgange zwischen den Genomen der pravalenten C- und 

20 (B')-Subtyp-Thai-Virusstamme jener geographischen Region deutet. Eine RIP-Analyse 
(Recombinand Identification Program Analysis) und phylogenetisches "bootstrapping" legten 
insgesamt 10 Bruchstellen (i) in der fur gagpol kodierenden Region, (ii) in vpr und am 3 -Ende 
des vpu-Gens und (iii) im offenem Leserahmen von nef nahe. Thai (B')-Sequenzen umfassen 
daher (i) mehrere Insertionen in der kodierenden Region von gagpol (Nukleotide 478-620, 1290- 

25 1830, 2221-2520, jeweils bezogen auf das erste Nukleotid innerhalb des Startkodon des Gag- 
bzw. des GagPol-Leserahmens), (ii) 3'-vpr, das komplette vpu, die ersten Exons von tat und rev 
(etwa 1000 Nukleotide beginnend etwa an Nukleotid 138 bezogen auf das Startkodon des Vpr- 
Leserahmens) und (iii) die 5'-Halfte des nef-Gens (Nukleotide 1-300). Die ubrigen Bereiche 
innerhalb der 9078 Nukleotide umfassenden Sequenz (SEQ ID NO: 1; Tabelle 3) weisen hSchste 

30 Homologien zu bekannten Subtyp C Isolaten auf. Bruchstellen von 97cn54 f die in der 
kodierenden Region von vpr/vpu bzw. im nef-Gen lokalisiert sind, wurden bei vielen Stammen 
des Subtyps C, die von IDUs isoliert wurden, die in verschiedenen Gebieten Chinas leben, an 
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ahnlichen Positionen gefunden. Dies legt eine gemeinsame Abstammung fur die C/B'- 
rekombinanten Stamme nahe. Bei mehr als 50% der gut definierten CTL-Epitope, die vom 
Subtyp B abstammen, innerhalb von Gag und Pol und bei 10% der bekannten Epitope in Env, 
wurde gefunden, dafl die Sequenzen innerhalb dieser C/B ? -chimaren Referenzstamme exakt 
5 iibereinstimmen. Diese Ergebnisse konnen die Anstrengungen in bezug auf ImpfstofFe in China 
deutlich erleichtern, indem auBerordentlich wichtige Matritzen fur die Konzeption von 
Impfstoffen bereitgestellt und Reagentien fur die am besten geeigneten 
immunologischen/virologischen Ausleseverfahren entwickelt werden. 

10 Die Verwendung der beschriebenen Sequenz gemaB vorliegender Erfindung, einer Sequenz von 
HTV-1, das den am meisten pravalenten C-Typ Virusstamm innerhalb Chinas darstellt, als 
Grundlage und Ausgangsmaterial ist fiir die Entwicklung von praventiv oder therapeutisch 
einsetzbaren Impfstoffen von Vorteil. Die notwendigen Konsequenzen fur die Entwicklung eines 
erfolgreichen HIV-Impfstoffkandidaten sind (i) ein detailliertes Wissen iiber die jeweilige 

15 epidemiologische Situation und (ii) die Verfugbarkeit einer klonierten kodierenden Sequenz, die 
innerhalb einer geographischen Region oder einer bestimmten BevSlkerung den am meisten 
pravalenten Virusstamm reprasentiert. Solche Sequenzen stellen die Grundlage dar (i) fur die 
rationale Konzeption von praventiv und therapeutisch einsetzbaren HIV-Impfstoffkandidaten, (ii) 
fiir Entwicklung spezifischer Therapeutika, wie beispielsweise therapeutisch wirksamer Decoy- 

20 Oligonukleotiden und Proteine, Antisense-Konstrukte, Ribozyme und transdominant negativ 
wirksamer Mutanten (iii) fiir die Entwicklung lentiviraler Vektoren fur die Gentherapie und (iv) 
die Herstellung von Reagenzien, die fiir Diagnose und Verlaufskontrolle der HIV-Infektion 
sowie die immunologische/virale Uberwachung des Impfungsprozesses eingesetzt werden 
konnen. 

25 

Dies ist insbesondere zutreffend fiir Impfstoffkandidaten, die auf den HIV-Hullproteinen 
beruhen, von denen gezeigt wurde, daB sie unter alien HIV-Proteinen die groBte Variability 
aufweisen. Dariiber hinaus wird ein erfolgreicher Impfstoff sehr wahrscheinlich beide Arme des 
Immunsystems induzieren miissen: neutralisierende Antikorper, idealerweise gerichtel gegen 
30 Konformations-Epitope im Hiillprotein sowie zellvermittelte Immunantworten (CD4-positive T- 
Helfer-Zellen, CD8-positive zytolytische T-Zellen, Zytokine vom Typ Th-1, 6-Chemokine), 
erzeugt gegen Epitope verschiedener viraler Proteine. Das Konformations-Epitop gemafi der 
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vorliegenden Erfindung besteht aus mindestens 3 Aminosauren, vorzugsweise aus 5 oder mehr 
Aminosauren, die bei der Antikdrper-Bindung involviert sind. Konformationelle Epitope konnen 
sich auch aus mehreren Abschnitten entweder eines einzigen Proteins, oder - im Falle oligomerer 
Komplexe wie z.B. des trimeren Hullglykoprotein-Komplexes - aus mehreren Abschnitten 
5 unterschiedlicher Untereinheiten zusammensetzen. Ein lineares Epitop gemaB der vorliegenden 
Erfindung variiert normalerweise in der Lange und umfaBt mindestens 8 Aminosauren bis etwa 
15 Aminosauren oder mehr, wobei eine Lange von 9 bis 11 Aminosauren insbesondere im Falle 
MHC Klasse I restringierter CTL-Epitope bevorzugt ist. 



10 Die vorliegende Erfindung betrifft somit femer Polypeptide, kodiert von der Nukleotidsequenz 
oder Fragment oder Derivat der Nukleotidsequenz gemaB SEQ ID NO:l, 2 oder 3. Die 
vorliegende Erfindung betrifft femer Polypeptide, umfassend eine kontinuierliche Sequenz von 
mindestens 8 Aminosauren, die von der Nukleotidsequenz oder Fragmenten oder Derivaten der 
Nukleotidsequenz gemaB SEQ ID NO:l, 2 oder 3 kodiert werden. Vorzugsweise umfasst das 

15 erfindungsgemaBe Polypeptid eine antigene Determinante, die natiirlicherweise in Infizierten 
eine Immunreaktion auslost Besonders bevorzugt sind Polypeptide, umfassend eine 
Aminosauresequenz, kodiert von der Nukleotidsequenz gemaB SEQ ID NO:2 oder 3 oder dessen 
Derivate und Fragmente. Insbesondere bevorzugt sind Epitope umfassend einen kontinuierlichen 
Bereich von 9 bis 11 Aminosauren, die identisch sind zwischen den durch SEQ ID NO:l 

20 kodierten Polypeptiden und einem HIV-Ilaj Referenzisolat, oder die 2 oder weniger konservierte 
Aminosauresubstitutionen innerhalb der 9 bis 1 1 Aminsauren umfassenden Sequenz aufweisen. 
Beispiele fur derartige Epitope sind in Beispiel 11 aufgefuhrt. Die erfindungsgemaBen 
Polypeptide konnen z.B. als Impfstoffe und Therapeutika oder zur Diagnostik verwendet werden. 

25 Ein weiterer Aspekt der vorliegenden Erfindung betrifft ein Polynukleotid gemaB SEQ ID NO: 1, 
2 oder 3. Ferner betrifft die vorliegende Erfindung ein Polynukleotid-Fragment der 
Nukleotidsequenz gemaB SEQ ID NO:l, 2 oder 3, oder ein Polynukleotid, das mindestens eine 
kontinuierliche Sequenz von Nukleotiden umfaBt, die zur selektiven Hybridisierung an die 
Nukleotidsequenz, wie sie in SEQ ID NO:l, 2 oder 3 dargestellt ist, in der Lage ist. Femer 

30 betrifft die vorliegende Erfindung Derivate der erfindungsgemaBen Polynukleotide oder 
Polynukleotid-Fragmente. Vorzugsweise umfasst das Polynukleotid oder das Polynukleotid- 
Fragment eine kontinuierliche Sequenz von mindestens 9 Nukleotiden, bevorzugterweise von 
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mindestens 15 Nukleotiden, noch bevorzugterweise von mindestens 27 Nukleotiden, oder eine 
l&ngere Sequenz. Das Polynukleotid oder das Polynukleotid-Fragment kann auch die kodierende 
Region der einzelnen HIV-Gene umfassen, wie z.B. von gag, pol, env. Beispiele sind in SEQ ID 
NO: 2 und SEQ ID NO: 3 angegeben. Ein weiterer Aspekt der vorliegenden Erfindung betriflt 
5 ein Polynukleotid, umfassend mindestens 2 erfindungsgemaBe Polynukleotid-Fragmente, wobei 
die Sequenzen der Polynukleotid-Fragmente auch iiberlappen oder durch einen Nukleotid- 
Platzhalter voneinander getrennt sein konnen. Die Sequenzen der Polynukleotid-Fragmente 
konnen identisch oder verschieden sein. Die erfindungsgemaBen Polynukleotide oder 
Polynukleotid-Fragmente konnen als ImpfstofFe oder Therapeutika oder zur Diagnostik 
1 0 verwendet werden. 



Die kodierende Sequenz des Klons 97cn54 und Derivate davon, ausgefuhrt in Form der SEQ ID 
NO: 1, als Vertreter des HIV-1 vom Subtyp C kann als Grundlage fur die folgenden 
Anwendungen verwendet werden: 

15 

Entwicklung von Subtyp-C-spezifischen HIV-l-Impfstoffen fiirprophylaktische und 
therapeutische Zwecke. Diese Subtyp-spezifischen Impfstoffe konnen weltweit in alien 
gsographischen Regionen, wo das Subtyp-C- Virus fur die HIV-Epidemie eine wesentliche Rolle 
spielt, verwendet werden, also z.B. in Lateinamerika, in Afhka und in Asien. Insbesondere 

20 sollten HIV-Impfstoffe, die getestet werden sollen in und entwickelt werden sollen fur Siidost- 
Asien und China auf der beschriebenen kodierenden Sequenz von 97cn54 beruhen, um Subtyp- 
spezifische humorale und zellvermittelte Immunantworten zu induzieren. Desweiteren konnen 
solche HIV-1 Subtyp C-spezifischen Impfstoffe als eine Komponente in einer Kocktail-Vakzine 
eingesetzt werden, die entweder alle oder eine definierte Auswahl der weltweit relevanten HIV 

25 Subtypen beriicksichtigt. 



Um gute humorale und zellvermittelte Immunantworten in den Impflingen zu induzieren, ent- 
halten die Antigene oder kodierenden Sequenzen, die dem Immunsystem zugefuhrt werden 
sollen, vorzugsweise (i) kurze kontinuierliche Abschnitte von mindestens 3 bis etwa 5 
30 Aminosauren Lange oder langere Abschnitte, abgeleitet von einem der offenen Leserahmen, wie 
sie in Tabelle 3 abgebildet sind, (ii) Bereiche von vorzugsweise 9 bis 11 Aminosauren, (iii) 
Kombinationen dieser Bereiche, die entweder getrennt oder als Polypeptid-Kette {Epitope- 
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Strings) verabreicht werden, wobei die Epitope-Strings bzw. deren Aminosauresequenzen 
entweder uberlappen oder aber durch Aminosauren oder andere Platzhalter getrennt sein konnen, 
und besonders bevorzugterweise vollstandige Proteine oder die entsprechenden kodierenden 
Sequenzen oder deren Varianten, die auch umfangreiche Deletionen umfassen konnen. Daher 
5 betrifft eine andere Aufgabe der vorliegenden Erfindung Polypeptide, die kodiert werden von den 
Nukleotidsequenzen oder Fragmenten der Nukleotidsequenzen, wie sie in SEQ ID NO: 1, SEQ 
ID NO: 2 und SEQ ED NO: 3 dargestellt sind. Vorzugsweise umfaBt das Polypeptid eine 
kontinuierliche Sequenz von mindestens 8 Aminosauren, vorzugsweise mindestens von 9 bis 11 
Aminosauren, besonders bevorzugterweise von mindestens 15 Aminosauren oder langere 
10 Sequenzen oder diskontinuierliche Epitope, die sich vorzugsweise aus wenigstens drei 
Aminosauren einer einzigen Polypeptidkette oder, im Falle oligomerer Proteinkomplexe, auch 
unterschiedlicher Polypeptidketten zusammensetzen. Impfstoff-Konstrukte auf der Basis der 
kodierenden Sequenz von 97cn54 schlieBen alle im Stand der Technik bekannten Antigenformen 
ein und greifen auf einschlagige Verabreichungssysteme zuriick. 

15 

Kurze Epitope, kodiert von Fragmenten der Nukleinsauresequenzen gemaB SEQ ID NO: 1 bis 3, 
und jeweils drei bis fiinf Aminosauren, vorzugsweise von 9 bis 11 oder mehr Aminosauren 
umfassend, konnen vorzugsweise synthetisch hergestellt werden. Derartige Peptide enthalten 
entweder eih B-Zellepitop, ein MHC Klasse D-restringiertes T-Helferepitop, ein MHC Klasse I- 

20 restringiertes zytotoxisches T-Zellepitop oder Kombinationen der genannten Varianten. Dabei 
konnen einzelne Epitope uberlappen oder auch durch Platzhalter, praferentiell bestehend aus 
Glyzin und/oder Serin Resten voneinander getrennnt sein. Verzweigtkettige Peptide konnen 
entsprechend dem Stand der Technik entweder wahrend der Synthese oder unter Zuhilfenahme 
der gangigen und kommerziell erhaltlichen homo- und heterobifunktionellen chemischen 

25 Quervernetzer im AnschluB an die Synthese und Reinigung der entsprechenden Peptide erzeugt 
werden. Alternativ konnen per se wenig immunogene Peptide durch Quervernetzung auch an 
ausgewahlte Tragerproteine wie z.B. Ovalbumin konjugiert werden, gentechnisch in 
Tragerproteine inseriert oder an deren N- bzw. C-Terminus fiisioniert werden. Vorzugsweise sind 
derartige Tragerproteine (i) bei Expression in geeigneten Zellkultursystemen (siehe unten) oder 

30 (ii) nach geeigneter Riickfaltung des gereinigten, denaturierten Proteins in der Lage, partikulare 
Strukturen auszubilden, bei denen B-Zellepitope vorzugsweise auf der Oberflache des 
partikularen Carriers zu liegen kommen. Zahlreiche Beispiele solcher zur Ausbildung 
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partikularer Strukturen tendierender Polypeptide sind mittlerweile bekannt wie beispielsweise 
das Hepatitis B- Virus (HBV) Core Antigen (HBcAg), das HBV Oberflachenprotein (HBsAg), 
das HIV gruppenspezifische Antigen, das Polyomavirus VP1 Protein, das Pappillomvirus LI 
Protein oder das TyA Protein der Hefe. Aufgrund der Tatsache, daB sich die Mehrheit der bislang 
5 beschriebenen partikelbildenden Proteine aus den Kapsid- oder Strukturproteinen 
unterschiedlichster Viren rekrutiert, spricht man hier auch von Virus-ahnlichen Partikeln (VLP, 
virus-like particles; Ubersicht: Sonderausgabe Vaccine. (1999) Volume 18. Advances in Peptide, 
Protein and Nucleic Acid Vaccine Strategies, edited by Pof. P.T.P. Kauyama) 

1 0 Epitop-Strings und Polypeptide, kodiert von Fragmenten der Nukleinsauresequenzen gemaB SEQ 
ID NO: 1 bis 3, mit einer Lange grdBer 30, vorzugsweise groBer 50 Aminosauren sowie 
Polypeptide mit einer Tendenz zur Ausbildung partikularer Strukturen (VLP) kdnnen nach dem 
Stand der Technik in Prokaryonten produziert und gereinigt werden. Derartige Plasmide 
enthalten dementsprechend einen bakteriellen Replikationsursprung wie z.B. ColEl, in aller 

15 Regel einen Selektionsmarker wie z.B. eine Resistenz gegenuber Kanamyzin oder Ampizillin, 
eine konstitutiv aktive oder induzierbare Transkriptions-Kontrolleinheit wie beispielsweise den 
LacZ- oder Tac Promotor, sowie die Signale zum Translationsstart und Translationsstop. Zur 
vereinfachten Expression unci Affinitatsreinigung konnen auch optional abspaltbare 
Fusionsanteile und Reinigungshilfen wie beispielsweise die Glutathion-S-Transferase oder 

20 Reinigungshilfen wie z.B. 01igohistidin-/a#y (Fanger) verwendet werden. 

Die DNA- oder RNA-Sequenzen, die (i) zur Herstellung der Epitop-S/nngs, kompletter Proteine 
oder Virus-ahnlicher Strukturen in eukaryontischen Zellkulturen wie z.B. Hefezellen, Pilzen, 
Insektenzellen oder Saugerzellen verwendet werden oder die (ii) zur direkten Verabreichung von 

25 DNA zu Immunisierungszwecken eingesetzt werden, konnen sich auf eine Verwendung der 
Kodons verlassen, wie sie vom Virus selbst verwendet wird. Alternativ kann die Verwendung 
der Kodons, wo immer technisch moglich, angepasst werden an die am haufigsten oder 
zweithaufigsten verwendeten Kodons in Genen, die im jeweiligen Produktionssystems hoch 
exprimiert werden. Beispiele fur die Optimierung des Kodongebrauchs in einem unter 

30 Sicherheitsaspekten optimierten Polygen, beinhaltend die Gene Gag, Pol und Nef, sowie im 
Hiillprotein-Gen sind gegeben in SEQ ID NO: 2 und SEQ ID NO: 3. Die SEQ IDs NO: 2 und 3 
sind in Beispiel 15 naher spezifiziert. 
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Die Etablierung von Zellinien zur Produktion der Epitop-Strings, Polypeptide oder Virus- 
ahnlichen Strukturen in den genannten Zellkultur-Systemen kann dem Stand der Technik 
entsprechend auf Vektoren basieren, die wiedenim neben einem bakteriellen 
5 Replikationsursprung, einem positiven oder negativen Selektionsmarker vor allem die 
entsprechenden Kontollregionen zur regelkonformen Transkription und Translation des 
Fremdproteins beinhalten konnen. Die nachfolgend beschriebenen Komponenten der DNA 
Vakzinkonstrukte stehen exemplarisch auch fur die Module, die sich auch in Vektoren zur 
Expression der Epitop-Strings, . Polypeptide oder kompletten Proteine in unterschiedlichen 
1 0 Saugerzellkulturen wiederfinden. 

Bei der einfachsten Form der Immunisierung handelt es sich urn die direkte Verabreichung eines 
reinen DNA-Impfstoffes. Dieser enthalt im wesentlichen 5'-seitig vom kodierenden Bereich eine 
Transkriptions-Kontrollregion, auch Promotor/Enhancer-Region genannt, der wahlweise ein 

15 funktionelles Intron zur Steigerung der Genexpression folgen kann, (ii) eine Kozak-Sequenz 
inklusive eines Translations-Startkodons sowie am 3'-Ende des Fremdgens ein Translations- 
Terminationskodon gefolgt von einer Polyadenylierungs-Signalsequenz. Die 
Promotor/Enhancerregion kann praferentiell eine konstitutive Expression des gewunschten 
Genproduktes unterstiitzen und ist beispielsweise von der Transkriptions-Kontrollregion eines 

20 unmittelbar friihen (IE) Cytomegalievirus-Gens (CMV-IE) oder dem Rous-Sarcoma Virus (RSV) 
LTR (long terminal repeat) abgeleitet. Alternativ kann auch eine induzierbare Form einer 
Transkriptions-Kontrollregion wie z.B. ein Tet on/Tet o#" Promoter verwendet werden, bei dem 
die Transkription beispielsweise durch die Gabe von Tetrazyklin oder entsprechender Analoga 
reguliert wird. Desweiteren bietet sich hier die Venvendung von Zelltyp-spezifisch regulierten 

25 Transkriptions-Kontrollregionen an wie z.B. die stromaufwarts des Muskel-Kreatin-Kinase Gens 
(MCK Gen; muskelspezifische Expression), des CD4-Rezeptorgens oder der MHC Klasse II 
Gene (prSferentielle Expression in Antigen-prasentierenden Zellen) gelegenen 
Promotor/Enhancerregionen. In einigen Fallen verwendet man auch chimare Kombinationen aus 
(i) Zelltyp-spezifischen Promotoren und (ii) viralen Enhancerregionen, um die Vorteile einer 

30 gewebespezifischen Expression mit denen der starken Transkriptionsaktivitat viraler Enhancer zu 
vereinen. Die Verstarkung der Genexpression durch das Einbinden eines in aller Regel 5'-seitig 
des offenen Leserahmens gelegenen fiinktionellen Introns geht auf eine gesteigerte 
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Kernexportrate gespleiflter im Vergleich zu ungespleiflten Transkripten zuriick und wird 
beispielsweise durch die Insertion eines im B-Globin Gen gelegenen Introns erreicht. 

Eine bevorzugte Form eines auf SEQ ID NO:l, 2 oder 3 basierenden DNA-Impfstoffs enthalt 
5 zusatzlich ein von Alpha- Viren wie beispielsweise von Semliki-Forest- oder Venezuela- 
Encephaiitis-Viren (SFV, VEE) abgeleitetes Replikon. In diesem Fall folgt der oben 
beschriebenen nuklearen Transkriptions-Kontrolleinheit und dem wahlweise beriichsichtigten 
Intron zunachst der fur die VEE oder SFV Nichtstrukturproteine (NS) kodierende Bereich. Erst 
3* seitig davon folgt das eigentliche Fremdgen, dessen zytoplasmatische Transkription seinerseits 

10 durch einen NS-sensitiven Promotor reguliert wird. Dementsprechend wird ausgehend von der 
nuklearen Transkriptions-Kontrolleinheit ein langes Transkript iiber mehrere ofFene Leserahmen 
erzeugt, das anschlieBend ins Zytoplasma transloziert wird. Die dort synthetisierten NS-Proteine 
aktivieren dann durch Bindung an die entsprechende Kontrollregion die zytoplasmatische 
Transkription der Fremdgene. Dieser Amplifikationseffekt fuhrt in aller Regel zu einer 

1 5 abundanten RN A Synthese und folglich hohen Fremdprotein-Syntheseraten. Letzteres erlaubt, im 
direkten Vergleich mit konventionellen Plasmiden, die auf den beschriebenen Effekt durch 
zytoplasmatische RNA Amplifikation verzichten, in aller Regel eine deutliche Reduktion der zu 
verabreichenden Plasmidmenge bei wenigstens vergleichbarer Immunogenitat. 

20 Die oben beschriebenen Peptide, Proteine, Virus-ahnlichen Partikel und DNA-Konstrukte 
konnen durch intramuskulare, subkutane, intradermale, intravenose Injektion verabreicht werden, 
wobei flir die Verabreichung der proteinosen Antigene jeweils der Stand der Technik angewendet 
wird. Zur DNA-Immunisierung konnen entweder konventionelle Spritzen mit Injektionsnadeln 
verwendet werden, oder aber Geratschaften, die ohne Nadeln auskommen und in aller Regel die 

25 DNA iiber Druckluft direkt in das gewiinschte Gewebe einbringen konnen. Dazu zahlt 
insbesondere auch die intranasale und orale Applikation DNA-haltiger Vakzin- Formulierungen 
durch sprayartige Vomchtungen. Alternativ dazu kann die DNA auch an feste Trager wie z.B. 
Goldkiigelchen konjugiert und beispielsweise unter Luftdruck in die entsprechenden Gewebe 
verabreicht werden. 

30 

Zur Verstarkung oder Modulation der Immunantwort konnen die erwahnten proteinosen 
Antigene und DNA-Konstrukte auch mit sogenannten Adjuvantien, i.d. Regel Stimulatoren der 
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Immunantwort, kombiniert oder in einer sequentiellen Abfolge mit den Adjuvantien verabreicht 
werden. Konventionelle Adjuvantien wie z.B. Aluminiumhydoxyd oder Aluminium- 
Hydroxyphosphat resultieren in einer Stimulation der humoralen Immunantwort, die sich auch 
durch hohe Antikorpertiter vom IgGl Subtyp auszeichnet. Modernere Adjuvantien, wie 
5 beispielsweise CpG Oligonukleotide (Konsensuskemmotiv: Purin-Purin-CpG-Pyrimidin- 
Pyrimidin) oder chemisch modifizierte Derivate davon (Phosphothioat-Oligunukleotide; 
Oligonukleotide mit Peptidriickgrat) verstarken iiblicherweise den zellularen Arm der 
Immunantwort und unterstiitzen vornehmlich den Thl-Typ der zellvermittelten Immunitat, 
gekennzeichnet durch hohe Antikorpertiter vom Subtyp IgG2a und die Induktion von Thl 
10 Zytokinen wie z.B. y-IFN, IL-2 und IL-12. 

Die Verabreichung und Aufiiahme von Peptiden, Proteinen und DNA-Vakzinkonstrukten kann 
insbesondere auch verbessert werden durch Bindung an oder Inkorporation in hohermolekulare 
Strukturen, wie z.B. biodegradierbare Partikel, multilamellare, idealerweise kationische 

15 Liposomen, immunstimulierende Komplexe (ISCOMS), Virosomen oder in vitro assemblierter 
Viruspartikel. Zu biodegradierbaren Partikeln zahlen beispielsweise PLA- (L-lactic acid), PGA- 
(polyglycolic) oder PLGA- [poly (D,L-lactide-co-glycolide)] Mikrospharen oder Derivate davon, 
kationische Mikropartikel oder von bakteriellen Kapselpolysacchariden abgeleitete 
Tragersubstanzen. Der Sammelbegriff ISCOMS steht fiir immunstimulierende Komplexe, die auf 

20 wasserloslichen Extrakten der Rinde von Quillaja saponaria entstammen und mittels 
chromatographischer Verfahren weiter aufgereinigt wurden. Eine dem Stand der Technik 
entsprechende, detaillierte Ubersicht zu den unterschiedlichsten Adjuvantien und 
Verabreichungshilfen findet sich unter 

http://www.niaid.nih.gov/aidsvaccine/pdf/compendium.pdf [Vogel, F. R., Powell, M. F. and 

25 Alving, C. R. „A Compendium of Vaccine Adjuvants and Excipients (2nd Edition)]. 

Desweiteren konnen zur gunstigen Presentation von Epitop-Strings, Polypeptiden und Vims- 
ahnlichen Partikeln virale und, alternativ, bakterielle Vektoren eingesetzt werden. 

30 Nach dem aktuellen Stand der Technik eignen sich beispielsweise gentechnisch veranderte 
Salmonellen und Listerien aufgrund ihres natiirlichen Zelltropismus in besonderer Weise dazu, 
DNA-Vakzinkonstrukte in Antigen-prasentierende Zellen wie Monozyten, Makrophagen und 
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vor allem in dendritische Zellen einzubringen. Die gentechnischen Veranderungen konnen neben 
einem Gewinn an Zelltypspezifitat unter anderem dazu beitragen, daC die DNA unbeschadet das 
Zytoplasma der Antigen-prasentierenden Zelle eiTeicht. In diesem Fall gelangt ein DNA- 
Vakzinkonstrukt in den Zellkem, wo iiber einen eukaryontischen, vorzugsweise viralen oder 
.5 zelltypspezifischen Promotor der entsprechende Leserahmen unter Nutzung der zellularen 
Resourcen und Proteine transkribiert wird. Nach dem Transport der RNA ins Zytoplasma wird 
das entsprechende Genprodukt translatiert und, je nach Beschaffenheit, posttranslational 
modifiziert und dem entsprechenden zellularen Kompartiment zugewiesen. 

10 Bakterielle Vektoren (Salmonellen, Listerien, Yersinien etc.) konnen auch zur Induktion einer 
Schleimhautimmunitat, vorzugsweise nach oraler Verabreichungverwendet werden Dabei 
werden die entsprechenden Antigene durch die bakterielle Transkriptions- und 
Translationsmaschinerie hergestellt und unterliegen demnach nicht den in Saugerzellen sonst 
iiblichen posttranslationalen , Modifikationen (keine entsprechende Glykosylierung; kein 

1 5 sekretorischer Pathway). 

> 

Daneben existieren mittlerweile eine Vielzahl von attenuierten viralen Vektoren, mit deren Hilfe 
sich die gewiinschten Antigene erfolgreich und in hohen Ausbeuten exprimieren lassen. Neben 
deren Tauglichkeit zur reinen Antigen-Produktion konnen solche virale Vektoren auch direkt zur 

20 Immunisierung eingesetzt werden. Diese kann zunachst entweder ex vivo erfolgen, beispielsweise 
zur Infektion von Antigen-prasentierenden Zellen, die anschlieCen dem Impfling verabreicht 
werden, oder direkt in vivo durch die subkutane, intradermal, intracutane, intramuskulare oder 
intranasal Immunisierung mit dem rekombinanten Virus, die eine gunstige Antigen-Prasentation 
mit entsprechendem Immunisierungserfolg erzielen l&Bt So konnen beispielsweise durch 

25 Immunisierung mit rekombinanten Vakzinia Viren wie z.B. dem durch Passagieren uber 
Huhnerzellen attenuierten Modifizierten Vaccinia Virus Ancara (MVA), dem gentechnisch 
attenuierten Vaccinia Stamm New York (NYVAC) oder die in Vogeln endemischen aviaren 
Vaccinia Viren (Fowlpox, Canarypox) adaquate humorale und zellvermittelte Immunantworten 
in den geimpften Personen induziert werden. Alternativ eignen sich dazu in gleicher Weise auch 

30 eine Reihe anderer Viren wie z.B. rekombinante Alpha- Viren, darunter das Semliki-Forest Virus 
oder das Venezuela-Enzephalitis Virus, rekombinante Adenoviren, rekombinante Herpes 
Simplex Viren, Influenzaviren und andere. 
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Letztlich konnen auf Basis der SEQ ID N0:1, 2, oder 3 auch attenuierte HIV-Viren generiert und 
zu Immunisierungszwecken eingesetzt werden, sofern mittels Klonierverfahren nach dem Stand 
der Technik die Regulationssequenzen (LTR, long terminal repeat), die den kodierenden Bereich 
flankieren, ergarizt werden. Eine hinreichende Attenuierung des Virus kann dann entsprechend 
5 dem Stand der Technik durch eine oder mehrere Deletionen beispielsweise im Nef-Gen 
erzieltwerden 

Die in den Beispielen SEQ ID NO: 1 und SEQ ID NO: 3 ausgefiihrten Nukleinsauresequenzen 
sowie daraus abgeleitete Peptide, Proteine oder Virus-ahnlichen Partikel konnen auch als 
10 Komponenten viraler Vektoren zur Geniiberfiihrung eingesetzt werden. 

Die durch das GagPol-Gen (SEQ ID NO:l; Nukleotid 177-4458; Tabelle 3) kodierten 
Polypeptide konnen beispielsweise die Verpackungs- und Rezeptorfunktionen von z.B. lenti- 
oder retrpviralen Vektoren bereitstellen. So konnen z.B. nach transienter Transfektion von 

15 Saugerzellen durch geeignete Plasmidvektoren, welche die gleichzeitige Expression des GagPol 
und VSV-G (vesicular stomatitis virus Hiillprotein G) Gens unterstutzen und die Verpackung 
eines therapeutischen Transgens sicherstellen, Viruspartikel erzeugt werden, die auch in der Lage 
sind, ruhende, postmitotische oder enddifferenzierte Zellen zii transduzieren. Dieses Verfahren 
zur Generierung transduktionskompetenter Viruspartikel kann wesentlich erleichtert und 

20 effizienter gestaltet werden, beispielsweise durch die Etablierung stabiler Zellinien, z.B. 
basierend auf human embryonic kidney Zellen (HEK293), die das GagPol Polyprotein konstitutiv 
oder unter Kontrolle eines induzierbaren Promotors exprimieren. Altemativ konnen auch 
rekombinante Adenoviren generiert werden, die die Verpackungsfunktionen, die 
Rezeptorfunktionen und die Transgenfunktionen oder Kombinationen daraus kodieren, und so 

25 als Werkzeug zum ex vivo, in situ und in vivo Delivery von retro- oder lentiviralen Vektoren 
dienen. 

Die durch SEQ ID NO: 3 kodierten Hullproteine oder Derivate davon konnen die 
Rezeptorfunktion fur lenti-, spuma- oder retroviral Vektoren oder anderer, auf umhiillten Viren 
30 basierender Vektoren durch Inkorporation in den Lipid-Bilayer bereitstellen. Dazu konnen 
beispielsweise auch Verpackungslinien erzeugt werden, bei denen sowohl die GagPol Proteine 
von Retro-, Spuma- und vorzugsweise von Lentiviren, als auch die aus SEQ ID NO: 1 und 3 
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abgeleiteten Hiillproteine entweder konstitutiv oder unter Kontrolle eines induzierbaren, 
wahlweise eines in der Aktivitat regulierbaren Promotors exprimiert werden. Altemativ dazu 
konnen, beispielsweise basierend auf dem Genom von Typ C oder Typ D Retroviren oder 
anderer membranumhiillter Viren wie z.B. Influenza- oder Heipesviren, chimare Viren generiert 
5 werden, die zusatzlich zu dem natiirlichen Hiillprotein oder anstelle des natiirlichen Hiillproteins 
ein von SEQ ID NO: 1 oder SEQ ID NO: 3 abgeleitetes Hiillprotein auf der Oberflache tragen. 

Gegen die aus den SEQ EDs NO: 1 bis 3 abgeleiteten Peptide, Proteine oder Virus-ahnlichen 
Partikel kdnnen auch (i) polyklonale Antiseren, (ii) monoklonale Antikorper (Mans, Mensch, 

10 Kamel), (iii) Antikorperderivate wie beispielsweise single-chain Antikorper, humanisierte 
Antikorper, bispezifische Antikorper, Phagen-Antikdrperbanken oder (iv) andere hochaffin 
bindende Polypeptide wie z.B. Derivate des hPSTI (human pancreatic secretory trypsin inhibitor) 
generiert werden. Diese Reagentien konnen zu therapeutischen Zwecken, beispielsweise zur 
Behandlung von HTV-Infektionen oder zu diagnostischen Zwecken, beispielsweise zur 

15 Herstellung von Testkits verwendet werden. 

Auf ahnliche Weise konnen die aus SEQ ED NO:l, 2 oder 3 abgeleiteten Peptide, Proteine oder 
Nukleinsaure-Sequenzen fur diagnostische Zwecke, z.B. fur die Serodiagnostik und fiir die 
Anwendung von Nukleinsaure-Hybridisierungstechniken oder Nukleinsaure- 
20 Amplifikationssystemen oder Kombinationen davon verwendet werden. Vorzugsweise konnen 
die erfindungsgemaflen Polynukleotid-Fragmente der Nukleotidsequenz gemaB SEQ ID NO:l in 
einer Polymerase-Kettenreaktion eingesetzt werden. Besonders bevorzugt werden die 
erfindungsgemafien Polynukleotid-Fragmente der Nukleotidsequenz gemaB SEQ ED NO:l zur 
Diagnostik mittels DNA-Chiptechnologie eingesetzt. 

25 

Die Erfindung wird durch die nun folgenden Beispiele erlautert, ist aber nicht auf diese 
beschrankt: 

Beispiel 1: 

30 Blutproben 

Alle Blutproben, die fur diese Studie verwendet wurden, wurden im Zuge der nationalen, 
molekularepidemiologischen Studie von 1996/1997 beziiglich HIV-1, Subtyp C, seropositiven 
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IDUs aus mehreren HIV-epidemischen Gebieten in China entnommen. Periphere mononukleare 
Blutzellen (PBMC) wurden mittels Ficoll-Gradienten abgetrennt. Die Viren wurden durch 
Kokultivierung der PBMCs von seropositiven IDUs mit Phytohamaglutinin (PHA)-stimulierten 
Donor-PBMCs isoliert. Positive Viruskulturen wurden aus den Zellkultur-Uberstanden 
5 nachgewiesen mittels des HIV-1 p24 Core Profile ELISA-Kits (DuPont Inc., Boston, MA). 

Beispiel 2: 

Polymerase Kettenreaktionen (PCR) und DNA-Sequenzierung 

Provirale DNA wurde aus produktiv infizierten PBMCs von mehr als einhundert ausge-wahlten 
10 HIV-l-positiven IDUs aus den nordwestlichen Provinzen Chinas extrahiert (Qiagen Inc., 
Valencia, CA). Die Nested-PCR wurde verwendet, um die kodierende Region flir env C2V3 zu 
amplifizieren. Die PCR-Produkte wurden mittels der 7b^-cyc/e-Methode unter Ver-wendung von \ 
Fluoreszenzfarbstoff-markierten Terminatoren (Applied Biosystems, 373A, Foster City, CA) wie 
kiirzlich beschrieben (Bai et al. 1997; Yu et al. 1997) direkt sequenziert. Multiple 
15 Sequenzvergleiche wurden unter Verwendung der Wisconsin software package Genetics 
Computer Group mit den Korrekturmethoden nach Kimura durchgefiihrt (GCG, 1997, Version 
9)- 

Beispiel 3: 

20 Phylogenetische Stammbaum-Analysen wurden von alien erhaltenen Sequenzen unter 
Verwendung des PHYLIP-Software-Pakets durchgefiihrt. Evolutionare Entfernungen wurden an 
Hand der maximum parsimony-yidho&z berechnet und durch kumulative horizontale Lange der 
Zweige angegeben. Die statistische Robustheit des neighbour joining Stammbaums wurde wie 
kiirzlich beschrieben durch bootstrap resampling uberpriift (Graf et al. 1998). 

25 

Beispiel 4: 

Auswahl eines reprasentativen HTV-l-Isolats des Subtyps C von chinesischen IDUs 
Innerhalb der Gruppen betrugen die berechneten durchschnittlichen Abstande innerhalb der fur 
C2V3 kodierenden Region auf DNA-Ebene 2,26 ± 1,43, was darauf hindeutet, da!3 die Epidemie 
30 in diesem Gebiet noch sehr jung ist. Die Unterschiede zwischen den Gruppen zwischen 
chinesischen Subtyp-C-Sequenzen und denen aus Indien, Afrika, und Sudamerika betrugen 9,67 
± 2,31 (Indien), 15,02 ± 4,13 (Afrika) und 8,78 ± 3,41 (Sudamerika). Das zeigt eine enge 
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phylogenetische Verwandtschaft zwischen indischen und chinesischen Subtyp-C-Sequenzen 
(Lole et. al. 1999) und eine nennenswerte genetische Entfemung zu der per se relativ 
heterogenen Gruppe afrikanischer HTV-l-Stamme des Subtyps C. 

5 Beispiel 5: 

Identifizierung eines Virus-Isolats, das den in China zirkulierenden pravalenten Virus-Stamm des 
Subtyps C am besten reprasentiert 

Aus den analysierten Proben wurde ein als 97cn54 bezeichnetes representatives Isolat 
identifiziert, das hochste Homologie (99,6%) zu einer berechneten Konsensus-Sequenz (cn- 

10 conV3), die auf Grundlage der charakterisierten lokalen HTV-Sequenzen (Tabelle 1) erstellt 
worden ist, aufweist. Multiple Aminosaure-Sequenzvergleiche einschliefilich der 
Primarsequenzen der V3-Schleife von primaren Subtyp-C-Vertretern aus den verschiedensten 
epidemischen Regionen und auch Konsensus-Sequenzen von anderen Subtypen (A-H, O, CPZ) 
unterstrichen den Subtyp-C-Charakter des ausgewahlten Primarisolats 97cn54 (Tabelle 1). 

15 Verglichen mit einer V3-Gesamtkonsensus-Sequenz (consensus) zeigen sowohl 97cn54 als auch 
cn-con-c Aminosaure-Abweichungen an den Positionen 13 (H->R) und 19 (A->T), die beide 
charakteristisch flir Isolate des Subtyps C sind (C_consensus). 
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Tabelle 1: Aminosaure-Sequenz-Vergleich der V3-Schleifen: 
Position 1 11 21 



31 



38 
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Tabelle 1: Der Aminosaure-Sequenz-Vergleich der V3-Schleifen von Konsensus-Sequenzen 
verschiedener Subtypen von HTV-1 (A-O) und ausgewahlte Isolate des Subtyps C aus 
verschiedenen Landern. Die V3-Gesamtkonsensus-Sequenz wurde durch den Vergleich der 
Konsensus-Sequenzen von verschiedenen Subtypen (A-O) ermittelt. cn-con-V3 stellt die 
Konsensus-Sequenz von HTV-l-Stammen Subtyps C, die in China prevalent sind, dar. 97cn54 
wurde als reprasentatives Standard-Isolat der in China vorkommenden pravalenten HIV-1- 
Stamme des Subtyps C ausgewahlt. bedeutet keinen Austausch gegeniiber der V3-Konsensus- 
Sequenz, Kleinbuchstaben bedeuten eine Aminosaure-Substitution und bedeutet Liicken. Alle 
Konsensus- und Isolat-Sequenzen fiir multiple Vergleiche wurden von der Datenbank Los 
Alamos erhalten. 



Beispiel 6: 

40 Die fiir das 97cn54 Hullprotein kodierende Sequenz ist am nachsten verwandt mit Virus- 
Stammen des Typs C aus Indien. 

Phylogenetische Stammbaum-Analysen, urspriinglich basierend auf den C2V3-Sequenzen des 
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env-Gens, ergaben, daB sowohl 97cn54 als auch die Konsensus-Sequenz der chinesischen Isolate 
des Subtyps C sich mit den Stammen des Subtyps C aus Indien (ind8, d!024, c-93in905, c- 
93in999, c-93inll246), aus Afrika (c-eth2220, c-ug286a2), und aus Sudamerika (92br025, nof, 
cam20 und sml45) gruppieren (clustern). Dies weist darauf hin, daB die indischen Virus-Stamme 
5 des Subtyps C der Ursprung der Epidemie von HIV-1, Subtyp C, in China sein konnten (Figur 1). 
Diese Hypothese stimmt auch iiberein mit unserer friiheren epidemiologischen Erkenntnis, die 
bestatigt, daB mit HTV-1, Subtyp C, infizierte Menschen in Yunnan Injektionskaniilen mit 
indischen Schmuckhandlem im Grenzgebiet geteilt haben sollen (Shao et al. 1999). 

10 Beispiel7: 

Klonierung des HTV-1 -Genoms von im wesentlichen voller Lange 

Genome von HIV-1 von im wesentlichen voller Lange wurden amplifizeirt mittels des Expand 
Long Template PC#-Systems (Boehringer-Mannheim, Mannheim, Deutschland), wie 
beschrieben bei Graf et al. (1998) und Salminen et al. (1995). Die Startermolekiile (Primer) 

1 5 wurden in konservierten Regionen innerhalb der langen terminalen Wiederholungen (LTR) von 
HIV-1 positioniert: TBS-A1 (5'-ATC TCT AGC AGT GGC GGC CGA A) und NP-6 (5'-GCA 
CTC AAG GCA AGC TTT ATT G). Gereinigte PCR-Fragmente wurden mit glatten Enden in 
einen mit Srfl verdauten pCR-Script-Vektor (Stratagene, Heidelberg, Deutschland) ligiert und in 
den E. co/i-Stamm DH5a transformiert. Verschiedene rekombinante Klone, die im wesentlichen 

20 das HIV-l-Genom voller Lange enthielten, wurden mittels Restriktionsfragmentlangen- 
Polymorphismus (RFLP) und Sequenzierung der kodierenden Sequenz der V3-Schleife 
identifiziert. Laut RFLP-Analyse unter Verwendung verschiedener Kombinationen von 
Restriktionsendonukleasen und nachfolgender Sequenzierung der kodierenden Sequenz der V3- 
Schleife waren 77% der positiven Konstrukte voller Lange nahezu identisch. Ein Provirus- 

25 Konstrukt, das die breite Mehrheit der positiven Klone reprasentiert, wurde ausgewahlt und wie 
oben beschrieben unter Verwendung des primer-walking-Ansatzes sequenziert (die 
Startermolekiile wurden ungefahr alle 300 bp entlang des Genoms fiir beide Strange entworfen). 

Beispiel 8: 

30 DNA-Sequenzen wurden unter Verwendung der Lasergene Software (DNASTAR, Inc., Madison, 
WI) auf Macintosh-Computern zusammengesetzt. Alle Referenzsequenzen der Subtypen dieser 
Studie sind von der Los Alamos HIV Datenbank. Ahnlichkeiten in der Nukleotid-Sequenz 
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wurden raittels des lokalen Homologie-Algorithraus von Smith und Waterman berechnet. 
Multiple Sequenzvergleiche mit verfugbaren Sequenzdaten anderer Subtypen wurden unter 
Verwendung des Wisconsin Softwarepakets Genetics Computer Group (GCG, 1997, Version 9) 
durchgefiihrt. 

5 

Beispiel 9: 

Gesamtstruktur der kodierenden Sequenz von 97cn54 

Die 9078 bp lange genomische Sequenz des Isolats 97cn54 enthielt alle bekannten strukturellen 
und regulatorischen Gene des HTV-l-Genoms. Es wurden keine wesentlichen Deletionen, 

10 Insertionen oder Umlagerungen gefunden. Die Ahnlichkeiten in der Nukleotid-Sequenz wurden 
untersucht mittels Vergleich aller kodierenden Sequenzen (CDS) von 97cn54 mit Konsensus- 
Sequenzen verschiedener Genotypen und ausgewahlter Subtyp-Isolate (Tabelle 2). Die hochsten 
Homologien der Leserahmen von gag, pol, env und vif zu den entsprechenden Konsensus- 
Sequenzen des Subtyps C lagen in einem Bereich von 93,93 bis 95,06%. Diese Beobachtung 

15 enveiterte den oben beschriebenen Sequenzvergleich und die phylogenetische Stammbaum- 
Analyse aufgrund von C2V3 erheblich (siehe Tabelle 1 und Figur 1). Sie bestatigte daher 
eindeutig, daB das ausgewahlte Virus-Isolat zur Gruppe der kiirzlich veroffentlichten Virus- 
Stamme des Subtyps C gehort. Die durch diese Art der Analyse fur die Gene tat, vpu, vpr und nef 
bestimmten Werte der Homologie waren jedoch nicht ausreichend, um eine klare Zuordnung 

20 dieser Leserahmen zu Virus-Stammen des Subtyps B oder C zu erlauben (Tabelle 2). Fur das 
Gen vpu wurden die hochsten Homologien zu den Subtypen B registriert (94,24%), wahrend die 
Homologie zu der Konsensus-Sequenz des Subtyps C nur 78,23% betrug. Ahnliche 
Beobachtungen wurden fur das Gen tat gemacht: hochste Homologie zum Isolat B*-rl42 (>91%), 
im Vergleich zu 87,9% (C-92br025) und 85,5% (C-eth2220) fur ausgewahlte primare Vertreter 

25 des Subtyps C oder 89,01% fur die Konsensus-Sequenz des Subtyps C. Diese Daten legten 
zusammen mit dem Auftreten der Genotypen B, C und E im ganzen epidemischen Gebiet von 
Yunnan nahe, daB das analysierte Virus-Isolat einen Mosaik-Virusstamm darstellen konnte, der 
die Folge eines Rekombinationsvorgangs zwischen Subtyp B' und Subtyp C ist. 



30 



WO 01/36614 PCT/DE00/04073 

26 

Tabelle 2: Vergleich der kodierenden Sequenzen von 97cn54 mit den entsprechenden Genen von 
Referenz-Stammen und Subtyp-spezifischen Konsensus-Sequenzen. 



Prozent Identitat mit 97cn54 



CDS 


pap 


pol 


vil 


vnr 


tat 


rev 


VDU 


env 


net 




87.68 


91.80 


86.81 


83.66 


84.90 


83.97 


79.82 


85.75 


84.19 


3 


90.43 


91.93 


88.04 


90 J 1 


86.56 


82.08 


94.24 


84.52 


88.13 


B-mn 


89.38 


90.82 


86.01 


89 J 1 


87.44 


79.48 . 


88.21 


82.33 


85.41 


B'-rl42 


91.53 


90.76 


86.01 


88.97 


91.163 


80.23 


96.74 


82.70 


85.99 


C 


94.65 


94.29 


95.06 


91.39 


89.01 


91.99 


78.23 


93.93 


88.82 


C- 


92.19 


92.91 


88.51 


90.03 


87.91 


89.70 


76.13 


88.51 


86.20 


92br025 




















C- 


91.4 


92.06 


87.15 


90.77 


85.57 


88.08 


80.09 


87.15 


87.08 


eth2220 




















D 


89.80 


91.08 


87.74 


87.94 


83.93 


84.39 


87.30 


85.26 


86.88 


E/A 


86.324 


89.07 


86.59 


83.39 


81.44 


81.74 


77.31 


82.09 


84.18 


F 


88.02 


88.99 


86.36 


86.25 


80.65 


86.25 


82.33 


84.02 


/ 


G 


88.08 


/ 


/ 


/ 


/ 


/ 


/ 


84.55 


/ 


H 


87.69 


89.45 


86.01 


85.22 


/ 


/ 


/ 


83.74 


/ 


O 


73.42 


78.02 


72.12 


76.604 


72.31 


76.60 


59.54 


67.01 


80.35 


CPZ 


74.14 


78.80 


93.75 


75.44 


76.00 


75.44 


64.41 


72.42 


/ 



5 Tabelle 2: Nukleotidsequenz-Vergleich aller kodierenden Sequenzen (CDS) zwischen 97cn54 
und DNA-Sequenzen, die entweder (1) Konsensus-Sequenzen bestimmter HIV-l-Subtypen 
(erhalten von der Los Alamos HIV-Datenbank) oder (2) Isolate des Standard-Subtyps C (92br025 
und eth2220) und B (mn und rl42) darstellen. Die Daten geben die Identitat einer bestimmten 
Sequenz mit 97cn54 in Prozent an. Nicht-eindeutige Nukleotid-Positionen innerhalb der 
10 Konsensus-Sequenzen wurden als identisch bewertet. Die hochsten Homologien sind in 
Fettdruck hervorgehoben. 7" bedeutet, daB von der Los Alamos Datenbank keine Konsensus- 
Sequenz verfugbar war. 

Beispiel 10: 

1 5 Bestimmung der Rekombinationen zwischen den Subtypen 

Das rekombinante Identifikationsprogramm (RIP, Version 1.3; http://hiv-wew.lanl.gov/tools) 
wurde verwendet, urn potentielle Mosaik-Strukturen innerhalb der Gesamtsequenz dieses Klons 
zu identifizieren (FenstergroBe: 200; Schwellenwert fiir die statistische Signifikanz: 90%; 
Umgang mit Lticken: STRIP; informativer Modus: OFF). Es wurden Liicken eingefxihrt, urn den 
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Vergleich zu ermoglichen. Die Hintergrund-Sequenzen der Subtypen in dieser Analyse waren: 
u455 (Subtyp A), RL42 (chinesischer Subtyp B-Thai (B')), eth2220 (Subtyp C), z2d2 (Subtyp D), 
93th2 (Subtyp A/E). 

5 Beispiel 11: 

Rekombination zwischen den Subtypen in der kodierenden Region fur Gag-Pol von 97cn54 
Auch wenn wesentliche Homologien zu den Virusstammen des Subtyps C innerhalb der 
hochkonservierten Leserahmen von gag und pol beobachtet wurden, identifizierte die RIP- 
Analyse 3 Bereiche der intra-subtypischen Rekombination innerhalb gagpol um die Posi-tionen 

10 478-620, 1290-1830 und 2221-2520 oberhalb des Startkodons von gag. Diese ver-streuten 
Abschnitte liegen innerhalb der Leserahmen von gag und pol und weisen hdchste Ho-mologien 
zu dem Prototyp B (Daten nicht gezeigt) und insbesondere zu einem Isolat des Subtyps B(B'), das 
aus Yunnan kommt (Figur 2), auf. Diese Beobachtung unterstreicht ein-deutig die Wichtigkeit 
von RIP-Analysen, da einfache Homologie-Vergleiche auf der Basis von kompletten Genen nicht 

15 in der Lage waren, diese kleinen yerstreuten Fragmente eines anderen Subtyps zu identifizieren. 
Um die mittels RIP-Analyse erhaltenen Daten zu bestati-gen, erstellten wir mehrere 
phylogenetische Stammbaurne unter Verwendung der Regionen, die die Bereiche der 
vorgeschlagenen Rekombination entweder flankieren oder iiberspannen (Figur 3). Unter 
Verwendung mehrerer Standard- Vertreter verschiedener Subtypen und eini-ger ausgewahlter 

20 Primar-Isolaten des Subtyps C konnten alle vorgeschlagenen Bereiche der Rekombination 
bestatigt werden durch differenzielles Clustern von 97cn54 mit den jeweiligen Referenz-Isolaten 
der Subtypen C (Figuren 3 A, C, E, G) oder B (Figuren 3 B, D, F). 

Beispiel 12: 

25 Intersubtyp-Rekombination in der fur env kodierenden Region von 97cn54 

Wie die in Tabelle 2 zusammengefassten Sequenzvergleiche erwarten lieBen, bestatigte die RIP- 
Analyse die Intersubtyp-Rekombination zwischen Subtyp (B')-Thai und C (Figur 4) eindeutig. 
Ein Fragment von etwa 1000 bp Lange, das sich von den 150 3'-terminalen bp von vpr iiber das 
erste Exon von tat und rev bis zu vpu erstreckt, zeigte das hochste Ausmafi an Homologie mit 

30 dem Vertreter des lokalen Subtyps (B') (rl42) (Figur 4 A). Dariiber hinaus zeigte ein etwa 300 bp 
langer Sequenzbereich, der mit der 5-Halfte des Gens nef iiberlappt, hochste Homologie mit dem 
Subtyp (B')-Thai, wohingegen der verbleibende Teil einschliefllich eines Fragments von 300 bp 
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Lange, der sich in die 3'-LTR-Region erstreckt, mit Subtyp C gruppiert (clustert) (Figur 4 B). 



Unter Erweiterung der RIP-Analyse zeigten phylogenetischen Stammbaume die engste 
Verwandtschaft von vpr/vpu und dem S'-Bereich des nef-Gens zu Isolaten des Subtyps B (Figur 5 
5 A, B), wohingegen das 3'-nef-Fragement sich eindeutig mit Vertretem des Subtyps C gruppierte 
(Figur 5 C). Weitere Analysen bestatigten, daB die Sequenz des Subtyps B innerhalb dieses 
Mosaiks naher verwandt ist mit einem kiirzlich beschriebenen Thai-OB'J-Stamms (rl42), der 
isoliert wurde von einem chinesischen IDU (Graf et al. 1998), als zu Prototyp-Isolaten des 
Subtyps B (mn und sf2) (Tabelle 2). 

10 

Beispiel 13: 

Reprasentativer Charakter von 97cn54 

In den kodierenden Regionen von vpr/vpu und dem nef-Gen von 97cn54 liegende Bruchstellen 
wurden in fast identischen Postionen bei alien Stammen des Subtyps C, die aus in den 

15 nordwestlichen Provinzen von China lebenden IDUs isoliert wurden, gefunden. 2 RIP- Analysen, 
die reprasentativ fiir 8 unabhangig voneinander isolierte und analysierte HIV-l-Stamme von 
verschiedenen mit HTV-1 infizierten Personen in der autonomen Region Xinjiang isoliert 
wurden, sind in den Figuren 4 C und D dargestellt. Was die Herkunft von 97cn54 (Siidwesten 
von China) und xj24 und xj 15 (nordwestliches Gebiet) betrifft, legen diese Daten fiir die durch 

20 China zirkulierenden C/B'-rekombinanten Stamme einen gemeinsamen Vorlaufer nahe. Unsere 
Ergebnisse zeigen also, daB 97cn54 ein C/(F)-Intersubtyp-Mosaikvirus mit 10 Bruchstellen der 
Intersubtyp-Rekombination darstellt, das unter den IDUs innerhalb der nordwestlichen Provinzen 
Chinas am starksten prevalent ist. Eine schematische Darstellung des (BVC)-Mosaikgenoms von 
Isolat 97cn545 ist in Figur 6 dargestellt. 

25 

Beispiel 14: 

Vorhersage der iiber Subtypen hinaus kreuzreaktiven spezifischen Epitope fiir HTV-spezifische 
zytolytische T-Zellen 

Genomische Sequenzen eroffhen die Moglichkeit, die Konserviertheit von bekannten CTL- 
30 Epitopen zu ermitteln, die einen EinfluB haben kdnnen auf die Effektivitat von HIV-1- 
Impfstoffkandidaten. Die meisten Reagenzien und Daten beziiglich CTL-Epitopen stammen von 
Sequenzen von HIV-Ilai des Subtyps B. Um die Konserviertheit von iiber Subtypen hinaus 
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kreuzreaktiven CTL-Epitopen abzuschatzen, wurden die vorhergesagten Protein-Sequenzen von 
97cn54 mit den bekannten und am besten kartierten LAI-spezifischen CTL-Epitopen verglichen. 
Von den 194 beschriebenen CTL-Epitopen von HI\M liegen 75, 55, 40 und 24 in Gag, (pl7, 
p24, pl5), in der Reversen Transkriptase (RT), in gpl20 bzw. in gp41. Wahrend fast 50% oder 
5 mehr der Epitope in Gag und RT vollig identisch sind, stimmten nur 5% und 17% der von HIV- 
Ilai abgeleiteten CTL-Epitope von gp!20 und gp41 exakt mit der fur 97cn54 vorhergesagten 
Aminosaure-Sequenz uberein. Wenn man jedoch zwei konservative Fehlpaarungen in einem 
bestimmten CTL-Epitop zulaflt, war ein zusatzlicher Bereich von 48% (pi 7), 33% (p24), 40% 
(RT), 57% (gpl20) und 33% (gp41) der bekannten CTL-Epitope von fflV-luu verwandt mit den 

10 Sequenzen in den entsprechenden von 97cn54 abgeleiteten Polypeptiden. Natiirlich muB diese 
letzte Betrachtung mit einiger Vorsicht aufgenommen werden, da sogar nicht-konservative 
Austausche die HLA-Bindung oder die T-Zell-Rezeptorerkennung eines antigenen Peptids 
beseitigen kann. Zusammengenommen sagen diese Beobachtungen jedoch eindeutig eine 
betrachtliche iiber die Subtypen hinaus kreuzreaktive CTL-Reaktivitat voraus, insbesondere der 

15 fiinktionell und immunologisch konservierten Proteine von HIV-1. AuCerdem legen diese Daten 
nahe, dafi ein betrachtlicher Anteil der Reagenzien (Peptide, Vakziniavirus-Konstrukte), die fur 
die Kartierung und Charakterisierung von CTL-Epitopen des Subtyps B synthetisiert und 
etabliert worden sind, auch niitzlich sein konnen fQr die Bestimmung von CTL-Reaktivitaten auf 
Basis von HIV-Sequenzen des Subtyps C. 

20 



Tabelle 3: Leserahmen der kodierenden Sequenz von 97cn54 



Leserahmen 


Start 


Ende 


Start 


Ende 


gag 


177 


1654 






pol 


1447 


4458 






env 


5589 


8168 






vif 


4403 


4984 






vpr 


4924 


5214 






vpu 


5426 


5671 






tat 


5195 


5409 


7730 


7821 


rev 


5334 


5409 


7730 


7821 



nef 



8170 8790 
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Die Nummera beziehen sich auf das 5-Ende der in SEQ ID NO: 1 wiedergegebenen DNA 
Sequenz. 



Beispiel IS: 

5 (A) Beschreibung der synthetischen kodierenden Region fur C54gpl60: C-gpl60 

Das C-gpl20-Gen wurde in die einzigen Kpnl/Sacl-Restriktionsschnittstellen des pCR-Script 
amp(+)-Klonierungsvektors (Stratagene, Genbank Accession: U46017) kloniert. Die 
synthetische, im Kodongebrauch an stark exprimierte Saugergene angepaBte kodierende Region 
von C54gpl60 ist in SEQ ID NO: 3 dargestellt. Die synthetische Signalsequenz kodiert ein 
10 Transportsignal fur den Import des kodierten Polypeptids in das endiplasmatische Retikulum. 
Die Positionen der verschiedenen kodierenden Regionen sind wie folgt: 



CDS 


Start 


Ende 


synthetische 
Signalsequenz 


28 


87 


gpl60 


88 


2580 



(B) Beschreibung der synthetischen Sequenz von C54 gagpolnef: C-gpnef 
15 Das Gen C-gpnef wurde in die einzigen KpnI/SacI-Restriktionsschnittstellen des pCR-Script 
amp(+) Klonierungsvektors (Stratagene) kloniert. Die synthetische, im Kodongebrauch an stark 
exprimierte Saugergene angepafite Sequenz von C54gagpolnef ist in SEQ ID NO: 2 dargestellt. 
In dem vorliegenden Konstrukt wurde das N-terminale Glycin gegen Alanin (Nukleotidsequenz 
GGC) ausgetauscht, urn ein Targeting des Polypeptides an die Zytoplasmamembran und die 
20 anschleiCende Sekretion von assemblierten Virus-ahnlichen Partikeln via Budding zu vemeiden. 
Gleichzeitig wurde an der natiirlichen Frameshift-Sequenz ein (-1) Leserastersprung eingefiihrt, 
der ein obligates Durchlesen der Ribosomen aus dem Gag- in den Pol Leserahmen garantiert und 
so die Synthese eines GagPolNef Polyproteins sicherstellt. 



25 
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Die Positional der verschiedenen kodierenden Regionen sind wie folgt: 



PCT/DE00/04073 



CDS 


Start 


Ende 


gag 


13 


1500 


5 pol (ART) 


1501 


Z40U 


scrambled nef 


2461 


3090 


3'pol (AIN) 


3091 


4155 


RT aktives 
Zentrum 


4156 


4266 



Beispiel 16: 

5 Das durch SEQ ID NO: 1 kodierte GagPolNef Polygen wurde iiber KpnI/XhoI in den Vektor 
pcDNA3.1 inseriert und in den E.coli Stamm XLlblue transformiert. Die Fahigkeit des 
GagPolNef Expressionsvektors eine Gag-spezifische Antikorperantwort zu induzieren wurde in 
vveiblichen BALB/c Mausen analysiert (Fig. 9). Zwei Gruppen von jeweils 5 Tieren erhielten 
jeweils eine intramuskulare (i.m.) Primarimmunisierung von 100 |ig DNA pro Immunisierung 

10 gefolgt 2 i.m. Folgeimmunisierungen 3 und 6 Wochen spater (Gruppe 1: pcDNA-GagPolNef; 
Gruppe 2: pcDNA). Eine Kontrollgruppe (Gruppe 3) wurde lediglich mit PBS immunisiert. Die 
Gesamttiter an Gag-spezifischem IgG wurden gegen gereinigtes Gag-Protein im ELISA 
bestimmt. Die Impfung mit pcDNA-GagPolNef resultierte in einer schnellen Induktion hoher 
Titer an Gag spezifischen Antikorpem (1:4.000), die gekennzeichnet war durch ein typisches 

15 Thl Profil an Antikorper Isotypen (IgG2a » IgGl). Die beiden Kontrollgruppen 2 und 3 
lieferten keine Hinweise auf die Generierung Gag-spezifischer Antikorper. Die Antikorpertiter 
stiegen beinahe urn das hundertfache (1:20.000) 1 Woche nach der ersten Folgeimmunisierung 
und erreichten Gag-spezifische Endpunkttiter von 1:80,000 eine Woche nach der zweiten 
Boosterimmunisierung. Zu keinem Zeitpunkt konnte bei den beiden Kontrollgruppen eine 

20 signifikante, Gag-spezifische Antikorperantwort nachgewiesen werden. 
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Beispiel 17: 

Die Antigen-spezifische Zytokinsekretion als Hinweis auf die Induktion einer T-Helfer Memory- 
Antwort wurde aus Milzzellen analysiert, die jeweils 5 Tage nach der zweiten 
Folgeimmunisierung entnommen wurden. Die Milzzellen der Mause, die drei i.m. 
5 Immunisierungen nut pcDNA-GagPolNef erhalten hatten, reagierten mit einer deutlichen gIFN 
Sekretion auf Gag-spezifischen Antigenstimulus (Tabelle 3). Eine vergleichsweise reduzierte 
gIFN Produktion wurde Milzzellen beobachtet, die aus Mausen nach dreimaliger subkutaner 
(s.c.) oder intradermaler (i.d.) Immunisierung mit pcDNA-GagPoJNef nach dem selben Schema 
wie oben gewonnen wurden. In alien Immunisierungsgruppen wurden, unabh&ngig von der 
10 Immunisierungsroute, keine nennenswerte DL4- und IL5 Sekreten aus den spezifisch in vitro 
restimulierten Milzzellen festgestellt. Eine Zytokinsekretion aus nicht-stimulierten Milzzellen 
wurde nicht beobachtet. 

Die i.m. Immunisierung mit pcDNA-GagPolNef Mute demnach zu einem starken Thl Zytokin- 
15 Profil, wahrend die subkutane Verabreichung eher eine schwache Thl Antwort induzierte. 
Tabelie 4: Zytokin-Profil von in vitro Gag-stimulierten Milzzellen von Mausen t 
Immunisierung (Nadelinjektion) oder i.d. bzw. s.c. Immunisierung durch eine Part 
mit den angegebenen DNA Konstrukten 

DNA Vakzine IL-4 (pg/ml) IL-5 (pg/ml) BFN-y (pg/ml) 

pcDNA-GagPolNef <8 <16 3220 ± 840 

(i.m.) 

pcDNA-GagPolNef(i.d.) <8 <16 80 ±32 

pcDNA-GagPolNef(s.c) <8 <16 <32 

Mittelwerte + Standardabweichung von Milzzellen, gewonnen jeweils aus 5 Mausen pro 

Experiment 

Beispiel 18: 

20 Um die Fahigkeit von pcDNA-GagPolNef zur Induktion Gag-spezifischer CTLs zu uberpriifen 
wurden Milzzellen 3 Wochen nach einer primaren Immunisierung mit pcDNA-GagPolNef 
(Gruppe 1), pcDNA (Gruppe 2) und PBS (Gruppe 3) in vitro in einer gemischen-Lymphozyten- 
Tumor-Zellkultur fiir 6 Tage spezifisch restimuliert und anschlieBend hinsichtlich ihrer 
zytotoxischen Aktivitat untersucht. Bei dem nonameren, vom Gag Protein der Subtyp B-Viren 
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(HIB-Isolat) abgeleiteten AMQMLKETI Peptid (Einbuchstabencode), das in diesem Versuch zur 
in vitro Restimulation gleichwie zur Bestimmung der spezifischen zytotoxischen Aktivitat 
eingestzt wurde, stellt bekannterweise ein D d -restringiertes CTL Epitope in der BALB/c Maus 
dar. Ga^-spezifische zytotoxische T-Zellen konnten nach einer einmaligen i.m. Injektion mit 
5 dem pcDNA-GagPolNef Plasmid, nicht jedoch in einer der beiden Kontrollgruppen 2 und 3 
festgestellt werden. Die Behandlung von Milzzellen mit dem oben genannten Peptid resultierte 
nicht in einem in vitro Priming Gag-spezifischer zytotoxischer T-Zellen. Diese Ergebnisse 
bestatigen (i) die Fahigkeit von pcDNA-GagPolNef zur Induktion Spezifischer zytotoxischer T- 
Zellen, die (ii) Subtyp-ubergreifend aktiv sind (Figur 9). 

10 
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Patentanspruche 



1. Ein Polynukleotid umfassend eine Nukleinsauresequenz gemaB SEQ ID NO:l, 2 oder 3 
oder dessen Fragment oder Derivat, oder ein Polynukleotid, das mit der 
Nukleinsauresequenz gemaB SEQ ID NO:l, 2 oder 3 hybridisiert. 

2. Polynukleotid oder dessen Fragment oder Derivat nach Anspruch 1, wobei das 
hybridisierende Polynukleotid unter . stringenten Bedingungen mit der 
Nukleinsauresequenz gemaB SEQ ID NO:l, 2 oder 3 hybridisiert. 

3. Polynukleotid oder dessen Fragment oder Derivat nach Anspruch 1 oder 2, umfassend 
mindestens eine kontinuierliche Sequenz von mindestens 9 Nukleotiden, bevorzugt 
mindestens 15, mehr bevorzugt mindestens 27, oder mehr Nukleotide. 

4. Polynukleotid oder dessen Fragment oder Derivat nach Anspruch 3 mit mehr als einer 
kontinuierlichen Sequenz von Nukleotiden, wobei mindestens zwei der kontinuierlichen 
Sequenzen durch einenNukleotid-Platzhalter {"spacer") getrennt sind. . 

5. Polynukleotid oder dessen Fragment oder Derivat nach einem der Anspruche 1 bis 4, 
welches fur wenigstens ein Polypeptid kodiert, welches kodiert wird durch die unter SEQ 
ID NO: 1, SEQ ID NO: 2 oder SEQ ID NO: 3 beschriebene Nukleotidsequenz. 

6. DNA-Konstrukte, umfassend das Polynukleotid oder dessen Fragment oder Derivat nach 
einem der Anspruche 1 bis 5. 

7. Bakterieller oder viraler Vektor, umfassend das Polynukleotid oder dessen Fragment oder 
Derivat nach einem der Anspruche 1 bis 5. 

8. Polynukleotid oder dessen Fragment oder Derivat nach einem der Anspruche 1 bis 5 als 
Arzneimittel, ImpfstofF oder Diagnostikum. 

9. Verwendung des Polynukleotids oder dessen Fragments oder Derivats nach einem der 
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Anspriiche 1 bis 5 zur Herstellung eines Arzneimittels oder Lnpfstoffs ftir die Behandlung 
oder Prevention von HIV-Infektionen. 

10. Polypeptid, kodiert von der Nukleotidsequenz oder Fragment oder Derivat der 
Nukleotidsequenz gemaB SEQ ID NO:l, 2 oder 3. 

11. Polypeptid nach Anspruch 10, umfassend eine kontinuierliche Sequenz von von 
mindestens 8 Aminosauren, die von der Nukleotidsequenz oder Fragmenten oder 
Derivaten der Nukleotidsequenz gemaB SEQ ID NO:l, 2 oder 3 kodiert werden. 

12. Polypeptid nach Anspruch 10 oder 11, wobei die Aminosauresequenz dem HIV- 
Hullprotein oder einem Fragment des HTV-Hullproteins entspricht. 

13. Polypeptid nach einem der Anspriiche 10 bis 12, ferner umfassend eine antigene 
Determinate, die nattirlicherweise in Infizierten eine Immunreaktion ausldst. 

14. Polypeptid nach Anspruch 13, wobei die antigene Determinante ein Konformations- 
Epitop oder ein lineares Epitop ist. 

15. Das Polypeptid nach einem der Anspriiche 10 bis 14 als als Arzneimittel, Impfstoff oder 
Diagnostikum. 

16 Verwendung des des Polypeptids nach einem der Anspriiche 10 bis 14 zur Herstellung 
eines Arzneimittels oder Lnpfstoffs fiir die Behandlung oder Prevention von HIV- 
Infektionen. 

17. Isoliertes Polypeptid spezifisch gegen ein Polypeptid nach einem der Anspriiche 10 bis 
14. 

18. Isoliertes Polypeptid nach Anspruch 17 als Arzneimittel oder Diagnostikum. 

19. Verwendung des isolierten Polypeptids nach Anspruch 17 zur Herstellung eines 
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Arzneimittels fiir die Behandlung oder Prevention von HIV-Infektionen. 

Isoliertes Polypeptid nach Anspmch 17 oder 18 oder die Verwendung des isolierten 
Polypeptids nach Anspmch 19, wobei das isolierte Polypeptid ein Antikorper ist. 
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Fig. 8/a 



AATCTCTAGCAGTGGCGCCCGAACAGGG^ 
1 + ♦ + + + + 60 

TTAGAGATCGTCACCGCGGGCTTCTCCCTGAACT 
a NL*QWRPNRDLKAKVRPEEI 
b ISSSGARTGT* KRK*DQRRS 

c SLAVAPEQGLESESKTRGDL- 

TCTCGACGCAGGACTCGGCTTGCTGAAGTGCACTCGGCAA^ 
61 --- + + - ---+-- ♦ + ♦ 120 

AGAGCTGCGTCCTGAGCCGAACGACTTCACGTGAGCCGTTCTCCGCTCrCGCCGCTGACC 
a SRRRTRLAEVHSARGESGDW 
b LDAGLGLLKCTRQEARAATG- 
C STQDSAC* SALGKRR ERRLV- 

TGAGTACGCCAATTATATTTGACTAGCGGAGGCTAGAAGGAGAGAGATGGGTGCGAGAGC 

121 + + + + + ---+ 180 

ACTCATGCGGTTAATATAAACTGATCGCCTCCGATCTTCCTCTCTCTACCCACGCTCTCG 
a *VRQLYI»TSGG* KERDGCES 

b E Y A N Y I *LAEARRREMGARA- 

C STPI I FD*RRLEGERWVRER- 

GTCAATATTAAGAGGGGGAAAATTAGATAAATGGGAAAAAATTAGGTTAAGGCCAGGGGG 

181 + + + + + + 240 

CAGTTATAATTCTCCCCCTTTTAATCTATTTACCCTTTTTTAATCCAATTCCGGTCCCCC 
a VNI KRGKI R *MGKN*VKARG 

b S I LRGGKLDKWEKI RL R PGG 

c QY*EGEN*INGKKLG*GQGE- 

AAAGAAACACT AT ATGCT AAAAC AC CT AGT ATGGG CAAG CAGGG AGCTGGAAAG ATTTGC 
241 + + -- + + + --+ 300 

TTTCTTTGTGATATACGATTTTGTGGATC^TACCCGTTCGTCCCTCGACCTTTCTAAACG 
a KETLYAKT PSMGKQGAGKIC - 

b KKHYMLKHLVWASRELERFA- 
c RNTI C * NT * YGQAGSWKDLH- 

ACTT AACC CTGGCCTTTTAGAGACATC AGAAGGCTGT AAACAAATAATGAAAC AG CTACA 
301 -- + + + + + + 360 

TGAATTGGGACCGGAAAATCTCTGTAGTCTTCCGACATTTGTTTATTACTTTGTCGATGT 
a T*PWPFRDI RRL*TNNETAT 

b LNPGLLETSEGCKQIMKQLQ- 
C LTLAF*RHQKAVNK* *NSYN- 

ATCAGCTCTTCAGACAGGAACAGAGGAACTTAGATCATTATTCAACACAGTAGCAACTCC 
361 --- + + + + -- + + 420 

TAGTCGAGAAGTCTGTCCTTGTCTCCTTGAATCTAGTAATAAGTTGTGTCATCGTTGAGG 
a ISSSDRNRGT*IIIQHSSNS 
b SALQTGTEELRSLFNTVAT P 

c QLFRQEQRNLDHYSTQ * QLP- 

CTATTGTGTACATACAGAGATAGATGTACGAGACACCAGAGAAGCCTTAGACAAGATAGA 
421 + + + + + + 480 

GATAACACATGTATGTCTCTATCTACATGCTCTGTGGTCTCTTCGGAATCTGTTCTATCT 
a LLCTYRDRCTRHQRSLRQDR 
b YCVHTEIDV RDTREALDKI E 

C IVYIQR *MYETPEKP * TR* R- 

GG AAGAAC AAAACAAAATTCAGCAAAAAACACAGCAGGCAAAGGAGG CTGACGGGAAGGT 

481 + + + --- + + + 540 

CCTTCTTGTTTTGTTTTAAGTCGTTTTTTGTGTCGTCCGTTTCCTCCGACTGCCCTTCCA 
a GRTKQNSAKNTAGKGG* REG 

b EEQNKIQQKTQQAKEADGKV 
C KNKTKFS KKHSRQRRLTGRS- 
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Fig. 8/b 



CAGTCAAAATTATCCTATAGTACAGAATCTCCAAGGGCAAATGGTACATCAGCCCATATC 
541 + + -+ + + + 600 

GTCAGTTTTAATAGGATATCATGTCTTAGAGGTTCCCGTTTACCATGTAGTCGGGTATAG 
a. QSKLSYSTESPRANGTSAH X 

b SQNYPIVQNLQGQMVHQPIS- 
C VKIIL*YRISKGKWYIS PYH- 

ACCTAGAACTTTAAATGCATGGGTAAAAGTGGTAGAAGAGAAGGCTTT^ 

601 + + + - + -- + + 660 

TGGATCTTGAAATTTACGTACCCATTTTCACCATCrrCTCTTCCGAAAATCGGGTCTTCA 
a T*NFKCMGKSGRREGF* PRS 

b PRTLNAWVKVVEEKAFS PEV 

C LEL*MHG* K W * KRRLLAQK*- 

AAT AC C C ATG TTTTCAGCGTT ATCAGAAGGAG C CACC CCA CAAGATTT AAACACC ATGCT 
661 + + - --- + + - --- + + 720 

TT ATGGGT ACAAAAG T CG CAAT AGTC TT C CTCGG TGGGG TGTT CT AAATTTG TGGT ACGA 
a NTHVFSVI RRSHPTRFKHHA 

b IPMFSALSEGATPQDLNTML- 
C YPCFQRYQKEPPHKI * TPC*- 

AAACACAGTGGGGGGACATCAAGCAGCTATGCAAATATTAAAAGATACCATCAATGAAGA 
721 + + - - + - + + + 760 

TTTGTGTC^CCCCCCTGTAGTTCGTCGATACGTTTATAATTTTCTATGGTAGTTACTTCT 
a KHSGGTSSSYANI KRYHQ* R 

b NTVGGHQAAMQILKDTINEE- 
C TQWGDI KQLCKY* KI PSMKR- 

GGCTGCAGAATGGGATAGATTACATCCAGTACATGCAGGGCCTATTGCACCAGGCCAAAT 
781 + + + + + + 840 

CCGACGTCTTACCCTATCTAATGTAGGTCATGTACGTCCCGGATAACGTGGTCCGGTTTA 
a GCRMG* ITSSTCRAYCTRPN 

b AAEWDRLH PVHAGPIAPGQM 

C LQNGIDY IQYMQGLLHQAK*- 

GAGAGAACCAAGGGGAAGTGACATAGCAGGAACTACTAGTAACCTACAGGAACAAATAGC 
841 --- + + + + + + 900 

CTCTCTTGGTTCCCCTTCACTGTATCGTCCTTGATGATCATTGGATGTCCTTGTTTATCG 
a ERTKGK*HSRNY**PTGTNS 
b REPRGSDI AGTTSNLQEQI A 

C ENQGEVT* QELLVTYRNK* H- 

ATGGATGACGAGTAACCCACCTGTTCCAGTAGGAGACATCTATAAAAGATGGATAATTCT 
901 + + + + + + 960 

TACCTACTGCTCATTGGGTGGACAAGGTCATCCTCTGTAGATATTTTCTACCTATTAAGA 
a MDDE* PTCSSRRHL* KMDNS 

b WMTSNPPVPVGDIYKRWIIL- 
c G*RVTHLFQ* ETSIKDG* FW- 

GGGATTAAAT AAAATAGTAAGAATGTAT AG C CCT ACCAGCATTCTGGACATAAAACAAGG 
961 + -- + + + + + 1020 

CCCTAATTTATTTTATCATTCTTACATATCGGGATGGTCGTAAGACCTGTATTTTGTTCC 
a GIK*NSKNV* PYQHSGHKTR 

b GLNKIVRMYS PTSILDI KQG- 

C D* I K* * ECIALPAFWT*NKG- 

GCCAAAGGAACCCTTTAGAGACTATGTAGACCGGTTCTTTAAAACTTTAAGAGCGGAACA 
1021 + + + + + --+ 1080 

CGGTTTCCTTGGGAAATCTCTGATACATCTGGCCAAGAAATTTTGAAATTCTCGCCTTGT 
a AKGTL*RLCRPVL*NFKSGT 
b PKEPFRDYVDRFFKTLRAEQ- 
C QRNPLETM* TGSLKL* ERNK- 

AGCTACGCAAGGTGTAAAAAATTGGATGACAGACACCTTGTTGGTCCAAAATGCGAACCC 

1081 + + + + + + 1140 

TCGATGCGTTCCACATTTTTTAACCTACTGTCTGTGGAACAACCAGGTTTTACGCTTGGG 
a SYARCKKLDDRHLVGPKCEP - . 

b ATQGVKNWMTDTLLVQN ANP 

C LRKV* KI G * QTPCWSKMRTQ- 
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Fig. 8/c 



AGATTGT AAGACCATTTT AAGAG CATT AGGAC CAGGGGCTT CAATAGAAGAAATGATGAC 

1141 + + + + * + 1200 

TCTAACATTCTGGTAAAATTCTCGTAATCCTGGTCC 
a RIi*DHFKSI RTRGFNRRKDD 

b DCKTI LRALGPGAS I EEMMT- 

C IVRPF * EH*DQGLQ* KK* * Q - 

AGCATGTCAGGGAGTGGGAGGACCTAGCCATAAAGCAWUVGTGTTG 
1201 + + + + + + 1260 

TCGTACAGTCCCTCACCCTCCTGGATCGGTATTTCXOT 
a SMSGSGRT* P* S KSVGRGNE'- 

b ACQGVGGPSHKAKVLAEAMS- 
C HVREWEDLAI KQKCW P R Q * A - 

CCAAACAAACAGTGCCATACTGATGCAGAGAAGCAATTTTAAAGGCTCTAAAAGAATTGT 
1261 + + + + + + 1320 

GGTTTGTTTGTCACGGTATGACTACGTCTCTTCGTTAAAATTTCCGAGATTTTCTTAACA 
a PNKQCHTDAEKQF*RL*KNC 
b QTNSAI LMQRSNFKGSKRIV- 

c KQTVPY*CREAILK-ALKELL- 

TAAATGTTTCAACTGTGG CAAGGAAGGGCAC ATAGC CAGAAATTG CAGGGC CCCT AGGAA 
1321 + - + -- + + + + 1380 

ATTTACAAAGTTGACACCGTTCCTTCCCGTGTATCGGTCTTTAAOSTCCCGGGGATCCTT 
a *MFQLWQGRAHSQKLOGP*E 
b KCFNCGKEGHIARNCRAPRK- 
C NVSTVARKGT* PEIAGPLGK- 

AAAGGGCTGTTGGAAATGTGGAAAAGAAGGACACCAAATGAAAGATTGTACTGAGAGACA 
1381 + + + + -- + + 1440 

TTTCCCGACAACCTTTACACCTTTTCTTCCTGTGGTTTACTTTCTAACATGACTCTCTGT 
a KGLLEMWKRRTPNERLY * ET 

b KGCWKCGKEGHQMKDCTERQ- 
C RAVGNVEKKDTK* KI VLRDR- 



GGCCAATTTTTTAGGGAAAATCTGGCCCTCCCACAAGGGAGGGCCAGGGAATTTTCTTCA 
1441 + -- + + + + + 1500 

CCGGTTAAAAAATCCCTTTTAGACCGGGAGGGTGTTCCCTCCCGGTCCCTTAAAAGAAGT 
a GOFFRENLALPQGRAREFSS 
b ANFLGKIWPSHKGGPGNFLQ- 
C P I F * G KSGPPTREGQG I FFR- 

G AAC AG AC CAG AG C CAAC AGCCCC ACC AG AGGAGAGCTTCAGGTTTGgGGAAGAGACAAC 
1501 -- + + + + + -- + 1560 

CTTGTCTGGT CTCGGTTGT CGGGGTGGT CTC CTCTCGAAGTCC AAACC C CTTCTCTGTTG 
a EQTRANS PTRGELQVWGRDN 

b NRPEPTAPPEESFRFGEETT- 
c TDQSQQPHQRRASGLG KRQQ- 

AACTCCATCTCAGAAGCAGGAGCCAATAGACAAGGAACTATATCCTTTAACTTCCCTCAA 
1561 + + + + + + 1620 

TTGAGGTAGAGTCTTCGTCCTCGGTTATCTGTTCCTTGATATAGGAAATTGAAGGGAGTT 
a NSISEAGANRQGTISFNFPQ 
b TPSQKQEPID KELYPLTSLK- 

C LHLRSRSQ*TRNYIL * LPSN- 

ATCACTCTTTGGCAACGACCCCTCGTCACAATAAAGATAGGGGGGCAATTAAAGGAAGCT 
1621 + --- + - + + -- + + 1680 

TAGTGAGAAACCGTTGCTGGGGAGCAGTGTTATTTCTATCCCCCCGTTAATTTCCTTCGA 
a I TLWQRPLVTI KIGGQLKEA 

b SLFGNDPSSQ*R*GGN*RKL- 
C HSLATTPRHNKDRGAI KGSS- 



CT ATT AG AT ACAGG AGC AGGTG AT ACAGT ATT AGAAGACCTG AATT T G C CAGGG AAATGG 
1681 + + + + + + 1740 

GATAATCTATGTCCTCGTCCACTATGTCATAATCTTCTGGACTTAAACGGTCCCTTTACC 
a LLDTGAGDTVLEDLNLPGKW 
b Y* IQEQVIQY*KT* I CQGNG- 

C I RYRSR* YSIRRPEFAREME- 
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Fig. 8/d 



* AAACCAAAAATGATAGGGGGAATTGGAGGTTTTATCAAAGTAAGACAGTATGAACAGATA 

1741 + + + + + ♦ 1800 

TTTGGTTTTTACTATCCCCCTTAACCrrcCAAAATAGTTTCATO 
a KPKMIGGIGGFI KVRQYEQI 

b NQK* *GELEVLSK*DSMNRY- 

C TKNDRGNWRFYQSKTV * T D T - 

CCCAT AG AAATTTG CGGACACAAAG CT AT AGGT ACAGT ATT AGT AGGAC CTACACCTGT C 
1801 - + * + *- + + + + I860 

GGG T ATCTTT AAACG CCTGTGTTTCGAT AT CCATGT CAT AAT CATC CTGGATGTGGACAG 
a PIEICGHKAIGTVLVGPTPV 
b P*KFADTKL*VQY* * DLHLS 

c HRNLRTQS Y'RYS I S R T Y T C Q - 

AACAT AATTGGAAGAAAT CTGTTGACT CAG CTTGG TTGCACTTT AAATTTTCCAAT CAGT 

1861 --- + + + + --- + -+ 1920 

TTGTATTAACCTTCTTTAGACAACTGAGTCGAACCAACGTGAAATTTAAAAGGTTAGT^ 
a NIIGRNLLTQLGCTLNF PIS 

b T*LEEIC*LSLVAL*IFQSV- 
C HNWKKSVDSAWLHFKFSNQS- 

CCCATTGAAACTGTACCAGTAAAATTAAAGCCAGGAATGGATGGCCCAAAGGTTAAA 

1921 + + + + + + 1980 

GGGTAACTTTGACATGGTCATTTTAATTTCGGTCCTTACCTACCGGGTTTCCAA 
a PI ETVPVKLKPGMDGPKVKQ 

b PLKLYQ*N*SQEWMAQRLNN- 
c H * N CTS KI KARNGWP KG * TM- 

TGGCCATTGACAGAAGAGAAAATAAAAGCATTAAGAGCAATTTGTGAT^^ 
1981 -- + + + + + --+ 2040 

ACCGGTAACTGTCTTCTCTTTTATTTTCGTAATTGTCGTTA 
a WPLTEEKIKALTAICDEMEK 
b GH*QKRK *KH*QQFVMKWRK- 

C AIDRRENKSINSNL * * NGER- 

GAAGGAAAAATTACAAAAATTGGGC CTGAAAATCCATAT AACACTC CAAT ATTTG CCAT A 
2041 + - + + + + + 2100 

CTTCCTTTTTAATGTTTTTAACCCGGACTTTTAGGTATATTGTGAGGTTATAAACGGTAT 
a EGKITKIGPENPYNTPI FAI 

b KEKLQKLGLKIHITLQYLP* 
c RKNYKNWA*KS I * HSNI CHK- 

AAAAAGAAGGACAGTACTAAGTGGAGAAAGTTAGTAGATTTCAGGGAACTCAATAAAAGA 
2101 -- + + + --- + -- + + 2160 

TTTTTCTTCCTGTCATGATTCACCTCTTTCAATCATCTAAAGTCCCTTGAGTTATTTTCT 
a KKKDSTKWRKLVDFRELNKR 
b KRRTVLSGES* * ISGNSIKE- 

C KEGQY * VEKVSRFQGTQ * K N- 

ACTCAAGATTTTTGGGAAGTTCAATTAGGAATACCACACCCAGCAGGGTTAAAAAAGAAA 
2161 + + + + + + 2220 

TGAGTTCTAAAAACCCTTCAAGTTAATCCTTATGGTGTGGGTCGTCCCAATTTTTTCTTT 
a TQ DFWEVQLGIPHPAGLKKK 

b LKI FGKFN* EYHTQQG * KRK- 

C SRFLGS S I RNTTPS RVKKEK- 

AAATCAGTGACAGTACTGGATGTGGGGGATGCATATTTTTCAATTCCTTTATATGAAGAC 
2221 + + + + - + + 2280 

TTTAGTCACTGT C ATGACCTACACCC CCTACGTAT AAAAAGTTAAGGAAAT ATACTTCTG 
a KSVTVLDVGDAYFSI PLYED 

b NQ*QYWMWGMHIFQFLYMKT- 
C I SDSTGCGGCI FFNS FI *RL- 

TTCAGG AAG T AT ACTGC ATTC AC C AT AC CT AG T AG AAAC AATGAAACAC CAGGGATT AGG 
2281 + + + + + + 2340 

AAGTCCTTCATATGACGTAAGTGGTATGGATCATCTTTGTTACTTTGTGGTCCCTAATCC 
a FRKYTAFTI PSRNNETPGIR 

b SGS I LHSPYLVETMKHQGLG- 

C QEVYCIHHT**KQ*NTRD*V- 
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Fig. 8/e 



T ATCAG TACAATGT ACTTCCACAGGG ATGGAAAGGATCACT AG CAAT ATT CCAAAGT AG C 
2341 + + + + + - + 2400 

AT AG T CATGTT ACATGAAGGTGT CCCT AC CTTTC CT AGTGATCGTT AT AAGGTTTCATCG 
a YQYNVLPQGWKGSLAI FQSS 

b I STMYFHRDGKDH*QYS K V A - 

C SVQCTSTGMERITSNI P K * H - 

ATGACAAAAACCTTAGAGCCri " l T AGAAAACAAAATCCAGGCATAGTTATCTATCAATAC 
2401 + + + + + + 2460 

TACTGTTTTTGGAATCTCGGAAAATCTTTTGTTTTAGGTCCGT 
a MTKTLEPFRKQNPGIVIYQY 
b *QKP*SLLENKIQA*LSINT- 
C DKNLRAF* KTKSRHSYLS I H - 

ATGGATGATTTGTATGTAGGATCTGACTTAGAGATAGGGCAGCATAGAACAAAAATAGAG 
2461 + + -- + + - + + 2520 

T AC C T ACT AAACAT ACATCCTAGACTGAATCTCT ATC C CG TCGT ATCTTGTTTTT ATCTC 
a MDDLYVGSDLE IGQHRTKI E 

b WMICM*DLT*R*GSIEQK*R- 
C G * FVCRI * LRDRAA*NKNRG- 

GAACTGAGACAACATTTGTTGAGGTCGGGATTTACCACACCAGACAAG 
2521 + + -- + + + ---+ 2580 

CTTG ACTCTGTTGTAAACAACTC CACCCCTAAATGGTGTGGTCTGTTCTTTGTAAT CTTT 
a ELRQHLLRWGFTTPDKKH* K 

b N*DNIC*GGDLPHQTRNIRK- 
c TETTFVEVGIYHTRQETLER- 

GAACCTCCATTTCTTTGGATGGGGTATGAACTCCATCCTGACAAATGGACAGTACAGCCT 
2581 + - + + + + --- + 2640 

C TTGGAGGT AAAG AAAC CT AC C C C AT ACTTGAGG T AGG ACTGTTTAC CTGTCATG TCGG A 
a EPPFLWMGYELHPDKWTVQP 
b NLHFFGWGMNSILTNGQYSL- 
C TSISLDGV*TPS*OMDSTAY- 

ACACAGCTGCCAGAAAAAGATAGCTGGACTGTCAATGATATACAAAAGTTAGTGGGAAAA 
2641 + _- + -- + + + + 2700 

TG TGT CG ACGGTCTTTTTCTATCGACCTGACAGTT ACTATATGTTTTCAATCACCCTTTT 
a TQLPEKDSWTVNDIQKLVGK 
b HSCQKKIAGLSMIYKS*WEN- 
C TAARKR * LDCQ * YTKVSGKI- 

TTAAACTGGGCAAGTCAGATTTATCCTGGAATTAAAGTAAGGCAACTTTGTAAACTCCTT 
2701 -- + + + + + + 2760 

AATTTGAC C CGTTCAGTCT AAAT AGGACCTTAATTTCATTCCGTTGAAAC ATTTGAGG AA 
a LNWASQIYPGIKVRQLCKLL 
b * TGQVRFILELK*GNFVNSL- 

C KLGKSDLSWN* SKATL* TP*- 

AGGGGGGCCAAAGCACTAACAGACATAGTACCACTAACTGAAGAAGCAGAATTAGAATTG 
2761 + + + + + + 2820 

TCCCCCCGGTTTCGTGATTGTCTGTATCATGGTGATTGACTTCTTCGTCTTAATCTTAAC 
a RGAKALTDIVPLTEEAE LEL 

b GGPKH*QT* YH*LKKQN*NW 

C GGQSTNRHSTTN*RSRIRIG- 

G CAGAAAACAGGGAAATT CTAAAAGAACCAGT AC ATGGAGTATACT ATGACCCATCAAAA 

2821 + + + + + + 2880 

CGTCTTTTGTCCCTTTAAGATTTTCTTGGTCATGTACCTCATATGATACTGGGTAG'ITTT 
a AENRE I LKEPVHGVYYDPSK 

b QKTGKF* KNQYMEYTMTHQK- 

C RKQGNSKRTSTWSIL* PI KR- 

GACTTGATAGCTGAAATACAGAAACAGGGGCAGGAACAATGGACATATCAAATTTACCAA 
2881 - + + + - + + + 2940 

CTGAACTATCGACTTTATGTCTTTGTCCCCGTCCTTGTTACCTGTATAGTTTAAATGGTT 
a DLIAEIQKQGQEQWTYQIYQ 
b T**LKYRNRGRNNGHIKFTK- 
C LDS *NTETGAGTMDI SNLPR- 
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Fig. 8/f 

GAACCATTCAAAAATCTAAAAACAGGGAAGTATGCAAAAATGAGGACTGCCCACACTAA 
2941 - + _- + _- + + - + -- 3000 

CTTGGTAAGTTTTTAGATTTTTGTCCCTTCATACX3TTTTTACT 
a EPFKNLKTGKYAKMRTAHTN 
b N HSKI * KQGSMQK*GLPTLM- 

C T IQKSKNREVCKNEDCPH* *- 

GATGTAAAACAATTAACAGAGGCTGTGCAGAAAATAGCCATGGAAGGCATAGTAATAT^ 
3001 + + + + + + 3060 

CTACATlTi'GTTAATTGTCTCCGACACGTCT 
a DVKQLTEAVQKIAMEGIVIW 
b M + NN*QRLCRK*PWKA**YG- 

c CKTI NRGCAENSHGRHSNMG- 



GGAAAAACTCCTAAATTTAGATTACCCATCCAAAAAGAAACATGGGAGACATGGTGGACA 
3061 + + - + + -- + + 3120 

CC Tl "l" l"l 'GAGGATTTAAATCTAATGGGTAGG l " ri " lTC " i TTGTACCCTCTOTACCACCTGT 
a GKTPKFRLPIQKETWETWWT 
b E.KLLNLDYPSKKKHGRHGGQ 
c KNS * I * ITHPKRNMGDMVDR- 



GACTATTGGCAAGCCACCTGGATTCCTGAGTGGGAATTTGTTAATACCCCTCCCTTAGTA 
3121 + + + + + - + 3180 

CTGATAACCGTTCGGTGGACCTAAGGACTCACCCTTAAACAATTATGGGGAGGGAATCAT 
a DYWQATWIPEWEFVNTPPLV 
b TIGKPP GFLS GNLLI PLP * * 

C LLASHLDS*VGIC*YPSLSK- 

AAATTATGGTACCAGCTGGAAAAAGATCCCATAGTAGGAGTAGAAACTTTCTATGTAGAT 
3181 + + + + - + + 3240 

TTT AAT AC CATGGT CGAC CT TTTT C T AGGG T ATCAT CCTCATCTTTGAAAGAT ACAT CT A 
a KLWYQLEKDPIVGVETFYVD 
b NYGTSWKKIP**E*KLSM*M- 
c I MVPAGKRSHSRS RN FLCRW- 

GGAGCAGCTAATAGGGAGACTAAAATAGGAAAAGCAGGGTATGTTACTGACAGAGGAAGG 
3241 + + + + + + 3300 

CCTCGTCGATTATCCCTCTGATTTTATCCTTTTCGTCCCATACAATGACTGTCTCCTTCC 
a GAANRETKIGKAGYVTDRGR 
b EQLIGRLK*EKQGMLLTEEG- 
C SS**GD*NRKSRVCY*QRKE- 

AAGAAAATTGTTTCTCTAACTGAAACAACAAATCAGAAGACTGAATTGCAAGCAATTTGT 
3301 + - + -- + + + + 3360 

TTCTTTTAACAAAGAGATTGACTTTGTTGTTTAGTCTTCTGACTTAACGTTCGTTAAACA 
a KKIVS LTETTNQKTELQA I C 

b RKLFL* LKQQIRRLNCKQFV- 

C ENCFSN*NNKSED* IASNLY- 

ATAGCTTTGCAAGATTCAGGATCAGAAGTAAACATAGTAACAGATTCACAGTATGCATTA 

3361 + + + --- + + + 3420 

TATCGAAACGTTCTAAGTCCTAGTCTTCATTTGTATCATTGTCTAAGTGTCATACGTAAT 
a IALQDSGSEVNIVTDSQYAL 
b *LCKIQDQK*T**QIHSMH* 
c S FARFRI R S K H S N R FTVCI R- 



GGG ATC ATT CAAG C AC AAC CAG AT AAG AGTG AATCAGAGTT AGTT AACC AAAT AAT AG AA 
3421 -,- + -- + + + + + 348O 

CC CT AGTAAGTTCGTGTTGGTCTATTCTCACTTAGTCTCAAT CAATTGGTTTATTAT CTT 
a GI IQAQPDKSESELVNQ I I E 

b GSFK HNQIRVNQS*LTK**N- 

C DHSSTTR*E* IRVS * PNNRT- 

CAATTAATGAAAAAGGAAAGAGTCTACCTGTCATGGGTACCAGCACATAAAGGAATTGGA 
3481 + + + + + + 3540 

GTTAATTACTTTTTCCTTTCTCAGATGGACAGTACCCATGGTCGTGTATTTCCTTAACCT 
a QLMKKERVYLSWVPAHKGIG 
b N* *KRKESTCHGYQHI KELE- 

c INEKGKSLPVMGTST * RNWR- 
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Fig. 8/g 



GGAAATGAACAAGTAGATAAATTAGTAAGTAGTGGAATCAGGAAAGTGCTATTTCTAGAT 
3541 -- + + + ♦ + ♦ 3600 

CCTTTACTTGTTCATCrrATTTAATCATTCATCACCTTAGTCCTTTCACGATAAAC^ 
a GNEQVDKLVSSGIRKVLFLD 
b EMNK* IN* *VVESGKCYF*M- 

C K*TSR*ISK*WNQESAISRW- 

GGAATAGATAAAGCTCAAGAAGAGCATGAAAAGTATCACAGCAATTGGAGAGCAATGGCT 
3601 + + + + + + 3660 

CCTTATCTATTTCGAGTTCTTCTCGTACrrm 
a GIDKAQEEHEKYHSNWRAMA 
b E* I KLKKSMKSITAIGEQWL- 

C NR * S S RRA* KVSQQL E S NG * - 

AGTGACTTT AAT CTG CCACC CAT AG T AGCAAAAGAAAT AG TGGCT AG CTGTGATCAATGT 

3661 + + -- + + --- + 3720 

TCACTGAAATTAGACGGTGGGTATC^TCGinTTCTTTATCACCGATCGAC^CTAGTTACA 
a SDFNLPPIVAKEIVASCDQC 
b VTLICHP**QKK*WLAVINV- 
C *L*SATHSSKRNSG*L*SMS- 

C AGC T AAAAGGAG AAG C CATG CATGGACAAGT AGACTGT AG TCCAGGGAT ATGG CAATT A 

3721 + + + + + + 3780 

GTCGATTTTCCTCTTCGGTACGTACCTGTTCATCTGACATCAGGTCCCTATACCGTTAAT 
a QLKGEAMHGQVDCSPGIWQL 
b S * KEKPCMDK*TVVQGYGN* 

C AKRRSHAWTSRL* SRDMAIR- 

GATTG T AC ACATT T AGAAGG AAAAATCATC CTGGT AGCAGT CCATGT AG C CAGTGGCT AC 
3781 + + - + + + + 3840 

CTAACATGTGTAAATCTTCCTTTTTAGTAGGACCATCGTCAGGTACATCGGTCACCGATG 
a DCTHLEGKI I LVAVHVASGY 

b IVHI*KEKSSW*QSM*PVAT- 
C LYTFRRKNHPGSS PCSQWLH- 

ATGGAAGCAGAGGTTATCCCAGCAGAAACAGGACAAGAGACAGCATACTTTATACTAAAA 
3841 + + + + + - + 3900 

TACCTTCGTCTCCAATAGGGTCGTCTTTGTCCTGTTCTCTGTCGTATGAAATATGATTTT 
a MEAEVI PAETGQETAYFI LK 

b WKQRLSQQKQDKRQHTLY*N- 
C GSRGYPSRNRTRDS I LYTKI- 

TTAGCAGGAAGATGGCCAGTCAAAGTAATACATACAGATAATGGTAGTAATTTCACCAGT 
3901 + + + + + - + 3960 

AATCGTCCTTCTACCGGTCAGTTTCATTATGTATGTCTATTACCATCATTAAAGTGGTCA 
a LAGRWPVKVIHTDNGSNFTS 
b *QEDGQSK*YIQIMVVISPV- 
c SRKMASQSNTYR*W* * FHQY- 

ACTGCAGTTAAGGCAGCCTGTTGGTGGGCAGGTATCCAACAGGAATTTGGAATTCCCTAC 
3961 + + + + + + 4020 

TGACGTC AATTC CGTCGGACAACCACC CGTC CATAGG TTGTCCTT AAACCTTAAGGGATG 
a TAVKAACWWAGIQQEFGIPY 
b LQLRQPVGGQVSNRNLEFPT- 
C CS *GSLLVGRYPTGI WNSLQ- 

AGT CC CCAAAGTCAGGG AGTAGTAG AAGCCATGAAT AAAGAATT AAAGAAAATTAT AGGG 
4021 + + + + + + 4080 

TCAGGGGTTTCAGTCCCTCATCATCTTCGGTACTTATTTCTTAATTTCTTTTAATATCCC 
a SPQSQGVVEAMNKELKKIIG 
b VPKVRE**KP*IKN*RKL*G- 
C SPKSGSSRSHE * RI KENYRA- 

CAGGTAAGAGATCAAGCTGAGCACCTTAAGACAGCAGTACTAATGGCAGTATTCATTCAC 
4081 + + + + -- + + 4140 

GT CCATTCTCTAGTTCGACTCGTGG AATTCTGTCGTCATG ATTAC CGTCATAAGTAAGTG 
a QVRDQAEHLKTAVLMAVFIH 
b R*EIKLSTLRQQY*WQYSFT- 
C GKRSS*AP*DSSTNGSIHSQ- 
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AATTTTAAAAGAAAAGGGGGGATTGGGGGCTA 
4141 + + + + + + 4200 

TTAAAAT , ri "rC Tl "i T CCCCCCTAACCCCCCATGTCACGTCCCClTl'C'rrATTATCTATAT 
a- NFKRKGGIGGYSAGERI IDI 

b ILKEKGGLGGTVQGKE* * I * 

C F* KKRGDWGVQCRGKNNRYN- 

AT AG C^CAGACATACAAACTAAAGAATTACAAAAACAGATTACAAAAATTCAAAA-r 
4201 + + + + + + 4260 

TATCGTTGTCTGTATGTTTGATrrClTAATGTTTTTGT 
a IATDIQTKELQKQITKIQNF 
b * QQTYKLKNYKNRLQKFKI F 

c SNRHTN* R I TKTDYKNS KFS- 

CGGGTTTATTACAGAGACAGCAGAGACCCCAGTTGGAAAGGACCAGCCAAACTACTCTGG 
4261 + + - + + + + 4320 

GCCCAAATAATGTCTCTGTCX3TCTCTGGGGTCAACCTTTCCT 
a RVYYRDSRDPSWKGPAKLLW 
b GFITETAETPVGKDQPNYSG 
C GLLQRQQRPQLERTSQTTLE- 

AAAGGTGAAGGGGCAGTAATAATACAAGATAATAGTGACATAAAGGTAGTACCAAGGAGG 
4321 + + + - + + + 4380 

TTTCCACTTCC CCGTCATT ATTATGTTCTATTATCACTGTATTT CCATCATGGTTCCTCC 
a KGEGAVI IQDNSDIKVVPRR 

b KVKGQ* *YKI IVT*R*YQGG- 

c R*RGSNNTR* * *HKGSTKEE- 

AAAG CAAAAATC ATT AAGG ACT ATGG AAAACAGATGGCAGGTG CTG ATTGTGTGG CAGGT 
4381 + + + + + + 4440 

TTTCGTTTTTAGTAATTCCTGATACCTTTTGTCTACCGTCCACGACTAACACACCGTCCA 
a KAKI IKDYGKQMAGADCVAG 

b KQKSLRTMENRWQVLIVWQV 
C SKNH* GLWKTDGRC*LCGR*- 

AGACAGGATGAAGATTAGAACATGGAATAGTTTAGTAAAACACCATATGTATGTTTCAAG 

4441 + + + + + + 4500 

TCTGTCCTACTTCTAATCTTGTACCTTATCAAATCATTTTGTGGTATACATACAAAGTTC 
a RQDED*NME*FSKTPYVCFK 
b DRMKIRTWNSLVKHHMYVSR- 
C TG*RLEHGIV* *NTICMFQG- 

GAGAGCTAATGGATGGTTTTACAGACATCATTATGACAGCAGACATCCAAAAGTAAGTTC 

4501 + + + + + + 4560 

CTCTCGATTACCTACCAAAATGTCTGTAGTAATACTGTCGTCTGTAGGTTTTCATTCAAG 
a ES *WMVLQTSL*QQTSKSKF 

b RANGWFYRHHYDSRHPKVSS- 
C ELMDGFTDI IMTADIQK*VQ- 

AGAAGT ACACATCCCATT AGGAAAGG CT AAATTAGT AAT AAAAACAT ATTGGGGGTTG CA 
4561 + --- + + - + + + 4620 

TCTTCATGTGT AGGGTAATCCTTTCCGATTTAATCATTATTTTTGT ATAACC C CCAACGT 
a RSTHPI RKG* I SNKNILGVA 

b EVHIPLGKAKLVIKTYWGLQ- 
C KYTSH*ERLN***KHIGGCR- 

GACAGGAGAAAGAGATCGGCATTTGGGTCATGGAGTCTCCATAGAATGGAGATTGAGAAG 
4621 + + + + + + 4680 

CTGTCCTCTTTCTCTAGCCGTAAACCCAGTACCTCAGAGGTATCTTACCTCTAACTCTTC 
a DRRKRSAFGSWSLHRME IE K 

b TGERDRHLGHGVS I EWRLRR 

C QEKE IGIWVMESP*NGD* ED- 

AT AT AC CACAC AAAT AG AAC C TGG CCTGG CAGACC AG CT AATT CATTTGT ATT ATTTTG A 

4681 + + + + + + 4740 

TATATGGTGTGTTTATCTTGGACCGGACCGTCTGGTCGATTAAGTAAACATAATAAAACT 
a I YHTNRTWPGRPANSFVLF * 

b YTTQIEPGLADQLIHLYYFD- 
c I.PHK*NLAWQTS*FICIILI- 
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TTGTTTTG CAGACTCTGATAT AAGGAAAG CGATATTAGGACACAT AGTT ATTCCn* AGGTG 
4741 + + 4 + + + 4800 

AACAAAACGT CTGAGACT ATATT C CTTTCGGT AT AATCCTGTGT AT CAATAAGGATC CAC 
a LFCRL* YKESHIRTHSYS*V 

b CFADSDIRKAILGHIVI P R C - 

C VLQTLI * GKPY*DT* LFLGV- 

TGACTATCAAGCAGGACATAATAATAAGGTAGGATCTCTACAATACTra 
4801 - + + - + --+ + + 4860 

ACTGAT AGTT C GTC CTG T ATTATT ATTC CATC CT AGAG ATGTT ATGAACCG TGACTGTCG 
a *LSSRT***GRISTILGTDS - 

b DYQAGHNNKVGSLQYLAtiTA 
C TI KQDI I I R * DLYNTWH * Q H - 

ATT GATAAAACCAAAAAAGAT AAAGCCAC CT CTG CCT AGTATCAAGAAATT AGT AGAGGA 

4861 + + + - + + + 4920 

T AACTATT TTGGTTTTTT CT ATTT CGGTGGAG ACGG ATGAT AGTTCTTT AATCAT CT CC T 
a IDKTKKDKATSA*YQEI SRG - - 

b LIKPKKIKPPLPSIKKLVED- 
C **NQKR*SHLCLVS. RN**RI^ 

T AGATGG AACAATC C CCAGGAG AT CAGGGGC C G CAGAGGGAACCACACAATG AATGGACA 

4921 + + - + + + + 4980 

ATCTACCTTGTTAGGGGTCCTCTAGTCCCCGGCGTCTCCCTTGGTGTGTTACTTACCTGT 
a *MEQS PGDQGPQREPHNEWT 

b RWNNPQE I RGRRGNHTMNGH 

C DGTI PRRSGAAEGTTQ * M D T - 

CTAGAGCTTCTAGAGGAGCTCAAGCAGGAAGCTCTTAGACACTTTCCTAGACCATGGCTT 
4981 + --- + + + + + 5040 

GATCTCGAAGATCTCCTCGAGTTCGTCCTTCGACAATCTGTGAAAGGATCTGGTACCGAA 
a LELLEELKQEAV RHFPRPWL 

b * SF*RSSSRfCLLDTFLDHGF 

c RASRGA QAGSC*TLS * TMAS- 

CATAGCTTAGGACAAC^TATCTATGAAACATATGGGGATACTTGGGCAGGAGTGGAAGCC 
5041 + V + + --- + + 5100 

GTATCGAATCCTGTTGTATAGATACTTTGTATACCCCTATGAACCCGTCCTCACCTTCGG 
a HSLGQHIYETYGDTWAGVEA 
b IA*DNI SMKHMGILGQEWKP 

C *LRTTYL*NIWGYLGRSGSH- 

ATAATAAGAATTCTGCAACAACTG CTGTTTATTCATTTCAG AATTGGGTGTCAG CATAG C 

5101 + + + --- + + + 5160 

TATTATTCTTAAGACGTTGTTGACGACAAATAAGTAAAGTCTTAACCCACAGTCGTATCG 
a IIRILQQLLFIHFRIGCQHS 
b **EFCNNCCLFISELGVSIA- 
c NKNSATTAVYS FQNWVS A * Q- 

AGAATAGGCATTTTGAGACAGAGAAGAACAAGAAATGGAGCCAGTAAATCATAAATTAGA 
5161 + + + + + + 5220 

TCTTATCCGTAAAACTCTGTCTCTTCTTGTTCTTTACCTCGGTCATTTAGTATTTAATCT 
a RIGILRQRRTRNGASKS* IR 

b E*AF*DREEQEMEPVNHKLE- 
C NRHFETEKNKKWSQ* I I N * S- 

GCCITGGGAG(^TCCAGGAAGTCAGCCrAAGACTGCITGTAACAGTTGCTATTGTAAA^ 
5221 + + + -- + + + 5280 

CGGAACCCTCGTAGGTCCTTCAGTCGGATTCTGACGAACATTGTCAACGATAACATTTTT 
a ALGASRKSA*DCL*QLLL* K 

b PWEHPGSQPKTACNSCYCKK- 
C LGS I QEVS LRLLVTVA I V KS- 
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Fig. 8/j 



GTCCTGCTTTGATTGCCAAGTTTGTTTCACGAAAAAA 
5281 + + + + + + 5340 

CACGACGAAAG T AACGGTT CAAACAAAGTGCTTTTTTC CGAAT C CGT AGAAGAT AC CGTC 
a VLLS LPSLFHEKRLRHLLWQ 

b CCFHCQVCFTKKGLGI FYGR- 

C AAF IAKFVSRKKA * ASSMAG- 

GAAGAAGCGAAGACAGCGACGAAGCGCTCATCGAAGCAGTGAGGATCATCAAAATCCT 
5341 + + + + ♦ + 5400 

C r TC TT CGCTTCTGTCGCTGCTTCGCGAGTAGCTTCGTCACTCCTAGTAGTTTTAGGATA 
a EEAKTATKRSSKQ*GSSKSY 
b KKRRQRRSAHRSSEDHQNPI 
C RSEDSDEAL IEAVRIIKILY- 

ATCAAAGCAGTAAGTAGTAAATGTAATGCAAGCTTTAACC^TTTTAGCAATAGTAGCC^ 
5401 + + + + + + 5460 

T AGTTT CGT CATT CATCATTT ACATT ACGTT CX1AAATTGGT AAAATCGTT ATCATCGGAA 
a IKAVSSKCNASFNHFSNSSL 
b SKQ*VVNVMQALTI L A I V A L 

C QSSK**M*CKL*PF*Q**P*- 

AGTAGTAGCAACAATAATAGCAATAGTTGTGTGGACCATAGTATTCATAGAATATAGGAA 
5461 + + + + + - + 5520 

TCATC ATCG TTGTT AT T ATCGTT ATCAACACAC CTGGT AT CAT AAG TAT CTT AT AT CCTT 
a SSSNNNSNSCVDHSIHRI*E 
b VVATIIAIVVWTIVFIEYRK- 
C **QQ**Q*LCGP*YS*NIGK- 

AATATTAAGACAGAAAAAAATAGACAGGTTAATTGATAGAATAAGAGAAAGAGCAGAAGA 
5521 + + -- + + + - 5580 

TTATAATTCTGTCTTTTTTTATCTGTCCAATTAACTATCTTATTCTCTTTCTCGTCTTCT 
a N I KTEKNRQVN* *NKRKSRR 

b I LRQKK IDRLI DRI RERAED 

C Y*DRKK*TG*L IE*EKEQKT- 

CAG T GG CAATG AGGG T GACGGG GAT CAGG AAG AATT ATCGG C ATTT ATGG AG AT GGGG C A 

5581 + — + + + ' + + 5640 

GTCACCGTTACTCCCACTGCCCCTAGTCCTTCTTAATAGCCGTAAATACCTCTACCCCGT 
a QWQ*G*RGSGRI IGIYGDGA 

b SGNEGDGDQEELSAFMEMGH- 
C VAMRVTG I RKNYR HLWRWGT- 

CCATGCTCCTTGGGATGTTGATGATC AGTAGTG CTGTAGGAAACTTGTGGGT CACAGTCT 

5641 + + + + + + 5700 

GGTACGAGGAACCCTACAACTACTAGTCATCACGACATCCTTTGAACACCCAGTGTCAGA 
a PCSLGC**SVVL*ETCGSQS 
b HAPWDVDDQ* CCRKLVGHSL 

C MLLGMLMISSAVGNLWVTVY- 

ATTATGGGGTACCTGTATGGAAAGGGGCAACCACCACTTTATTTTGTGCATCAGATGCTA 
5701 + + + + + + 5760 

TAATACCCCATGGACATACCTTTCCCCGTTGGTGGTGAAATAAAACACGTAGTCTACGAT 
a IMGYLYGKGQPPLYFVHQML 
b LWGTCMERGNHHFILCIRC* 
C YGVPVWKGATTTLFCASDAK- 

AAGCATATGATACAGAGGTACATAATGTTTGGGCTACACATGCCTGTGTACCCGCAGACC 
5761 + + * - + + + 5820 

TTCGTATACTATGTCTCCATGTATTACAAACCCGATGTGTACGGACACATGGGCGTCTGG 
a KHMIQRYIMFGLHMPVYPQT 
b SI *YRGT*CLGYTCLCTRRP- 

C AYDTEVHNVWATHACVPADP- 



ERSATZBLATT (REGEL 26) 



WO 01/36614 



22/27 



PCT/DE00/04073 
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C CAACCCACAAGAAATGGTTTTGGAAAATGT AACAGAAAATTTT AACATC 

5821 + + + + + + 5880 

GGTTGGGTG U T C "lU" r ACCAAAAC(nTTTACATTGTCTTTTAAAA 
PTHKKWFWKM*QKI LTCGKM 
b QPTRNGFGKCNRKF*HVEK* 
C NPQEMVLENVTENFNMWKNE- 

AAATGGTAAATCAGATGCAGGAAGATGTAATCAGTTTATGGGATCAAAGCCT 
5881 -- + + + + + + 5940 

TTTACCATTT AG T CT ACGT C CTTCT AC ATT AGT CAAATACC CT AG TTTCGGATTTTGG T A 
a KW*IRCRKM*SVYGIKA*NH 
b NGKSDAGRCNQFMGSKPKTM- 
C MVNQMQEDVI SLWDQSLKPC- 

GTGTAAAGTTGACCCCACTCTGTGTCACTTTAGAATGTAGAAATGTTAGCAGTAATAGTA 
5941 + + + + + + 6000 

CACATTTCAACTGGGGTGAGACACAGTGAAATCTTACATCTTTACAATCGTCATTATCAT 
a V*S*PHSVSL*NVEMLAVIV 
b CKVDPTLCHFRM*KC*Q* * * 

C VKLTPLCVTLECRNVSSNSN- 

ATGATACCTACCATGAGACCTACCATGAGAGCATGAAGGAAATGAAAAATTC 
6001 - + + + - + + + 6060 

TACT ATGGATGGT ACT C TGGATGGT ACT CTCGT ACITC CTTT ACTTTT T AA CG AGAAAGT 
a MI PTMRPT MRA*RK* KIALS 

b *YLP*DLP*EHEGNEKLLFQ- 
c DTYHETYHESMKEMKNCSFN- 

ATGCAACCACAGTAGTAAGAGATAGGAAGCAGACAGTGTATGCACTTTTTTATAGACTTG 
6061 + + + + + + 6120 

TACGTTGGTGTCATCATTCTCTATCCTTCGTCTGTCACATACGTGAAAAAATATCTGAAC 
a MQPQ**EIGSRQCMHFFIDL 
b CNHSSKR*EADSVCTFL*T* 
c ATTVVRDRKQTVYALFYRLD- 

ATATAGTACCACTTACTAAGAAGAACTATAGTGAGAATTCTAGTGAGTATTATAGATTAA 
6121 -- + + + - + + + 6180 

TATATCATGGTGAATGATTCTTCTTGATATCACTCTTAAGATCACTCATAATATCTAATT 
a I *YHLLRRTIVRILVSIID* 

b YSTTY*EEL**EF**VL* IN- 

C IVPLTKKNYSENSSEYYRLI- 

TAAATTGTAATACCTCAGCCATAACACAAGCCTGTCCAAAGGTCACTTTTGATCCAATTC 

6181 + + + + + + 6240 

ATTTAACATTATGGAGTCGGTATTGTGTTCGGACAGGTTTCCAGTGAAAACTAGGTTAAG 
a *IVIPQP*HKPVQRSLLIQF 
b KL*YLSHNTSLSKGHF*SNS- 
C NCNTSAI TQACPKVTFDP I P- 

CTAT ACACTATTG CACTCCAG CTGGTT ATG CAATTCTAAAGTGTAATGATAAGAT ATTCA 
6241 + + + + + + 6300 

GATATGTGATAACGTGAGGTCGACCAATACGTTAAGATTTCACATTACTATTCTATAAGT 
a LYTIALQL VM QF*SVMIRYS 

b YTLLH. SSWLCNSKV***DIQ- 

C IHYCTPAGYAILKCNDKIFN- 

ATGGGACAGGACCATGCCATAATGTTAGCACAGTACAATGTACACATGGGATTAAGCCAG 

6301 + + - + + + - + 6360 

TACCCTGTC CTGGTACGGTATT ACAATCGTGTCATGTTACATGTGTACCCTAA'rT CGGTC 
a MGQDHAIMLAQYNVHMGLSQ 
b WDRTMP* C*HSTMYTWD*AS 

C GTGPCHNVSTVQCTHGI KPV- 
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Fig. 8/1 



TGGTATCAACTCAACTACTGTTAAATGGTAGCCTAGCAGAAGGAGAAATAATAATTAGAT 
6361 + + + + + + 6420 

ACCAT AG TTGAGTTGATGACAATTT AC GATCGGAT CGT CTTCCTCTTT ATT ATT AATCT A 
a WYQLNYC*MVA*QKEK* *LD 

b GINSTTVKW*PSRRRNNN* I 

C V STQLLLNGSLAEGEI I I R S - 

CTGAAAATCTGACAAACAATCTCAAAACAATAATAGTACATCT^ 

6421 + + + + + + 6480 

GACTTTTAGACTGTTTGT/TACAGTTTTGTTATTATCATC 
a LKI *QTMSKQ* *YILINL*K 

b * KSDKQCQNNNSTS * S I CRN- 

C ENLTNNVKTI IVHLNQSVEI- 

TTGTATGTACAAGACCCGGCAATAATACAAGAAAAAGTATAAGGATAGGACCAGGACAAA 

6481 + + + + + + 6540 

AACAT ACATG TT CTGGGCCGTT ATT ATGTT LTiTTl'CAT ATT C CTATC CTGGTCCTG TTT 
a LYVQDPAI I Q E K V * G * D Q D K 

b CMYKTRQ*YKKKYKDRTRTN- 
.C V CTRPGNNTRKS I R I G P G Q T - 

CATTCTATGCAACAGGAGACATAATAGGAGACATAAGACAAGCACATTGTAACATTAGTG 
6541 + + - + + + + 6600 

GTAAGATACGTTGTCCTCTGTATTATCCTCTGTATTCTGTTCGTGTAACATTGTAATCAC 
a HSMQQET* *ET*DKHIVTLV 

b ILCNRRHNRRHKTSTL*H**- 
C FYATGDI Z GDI RQAHCNI SE- 

AAGATAAATGGAATGAAACTTTACAAAGGGTAAGTAAAAAATTAGCAGAACACTTCCAGA 
6601 + + + + + + 6660 

TTCTATTTACCTTACTTTGAAATGTTTCCCATTCATTrr 
a KINGMKLYKG*VKN*QNTSR 
b R*ME *NFTKGK* KISRTLPE- 

C DKWNETLQRVSKK LAEHFQN- 

AT AAAAC AAT AAAATTTG C AT C AT CCT C AGG AGGGGAC CT AG AAGT T ACAA CACAT AGCT 
6661 + + + + + + 6720 

TATTTTGTTATTTTAAACGTAGTAGGAGTCCTCCCCTGGATCTTCAATGTTGTGTATCGA 
a IKQ*NLHHPQEGT* KLQHIA 

b *NNKICIILRRGPRSYNT*L- 
c KTI KFASSSGGDLEVTTHS F- 

TTAATTGTAGAGGAGAATTTTTCTATTGTAATACATCAGGCCTGTTTAATGGTGCATACA 

6721 + - + + + -- + + 6780 

AATTAACATCTCCTCTTAAAAAGATAACATTATGTAGTCCGGACAAATTACCACGTATGT 
a LIVEENFSIVIHQACLMVHT 
b *L*RRIFLL*YIRPV*WCIH- 
C NCRGE FFYCNTSGL FNGAYT- 

CGC CT AATGG T ACAAAAAGT AATT CAAG CTCAAT CATCAC AAT C C CATG C AG AAT AAAGC 

6781 + - + + - + + + 6840 

GCGGATTACCATGTTTTTCATTAAGTTCGAGTTAGTAGTGTTAGGGTACGTCTTATTTCG 
a RLMVQKVIQAQSSQSHAE * S 

b A*WYKK*FKLNHHNPMQNKA- 
c PNGTKSNSSSIITIPCRIKQ- 

AAATTATAAATATGTGGCAGGAGGTAGGACGAGCAATGTATGCCCCTCCCATAAAAGGAA 
6841 + - + - + + + + 6900 

TT T AAT ATTT AT AC ACCG TC CTC C AT C CTGCT CGTT ACAT ACGGGG AGGGT ATTTTC CT T 
a KL* ICGRR*DEQCMPLP*KE 

b NYKY VAGGRTSNVCPSHKRK- 

c I I NMWQEVGRAMYAP P I KGN- 

ACATAACATGTAAATCAAATATCACAGGACTACTATTGGTACGTGATGGAGGAACAGAGC 
6901 + + + + + + 6960 

TGTATTGTACATTTAGTTTATAGTGTCCTGATGATAACCATGCACTACCTCCTTGTCTCG 
a T*HVNQISQDYYWYVMEEQS 
b HNM* I KYHRTTIGT*WRNRA- 

C I TCKSN I TGLLLVRDGGTEP- 
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Fig. 8/m 



CAAATGATACAGAGACATTCAGACCTGGAGGAGGAGATATGAGGAACAATTGGAGAAGTC 
6961 + -- + + + + + 7020 

GTIT ACT ATGTCT CTGT AAGTCTGGACCTC CT C CTCT AT ACT C CTTGTT AAC CTCTTCAC 
a QMIQRHSDLEEEI * G T I G E V 

b K*YRDIQTWRRRYEEQLEK* 
C NDTETFRPGGGDMRNNWRSE- 

AATTATATAAATATAAAGTGGTAGAAATTAAGCCATTGGGAGTAGCACCCACTACAACAA 
7021 + + - + + + - + 7080 

TT AAT AT ATTT AT ATTT CAC CAT CTTT AATTCGGT AACC CT CAT CGTGGG TGATGTTGTT 
a NYINIKW*KLSHWE*HPLQQ 
b II*I*SGRN*AIGSSTHYNK- 
C LYKYKVVEI KPLGVAPTTTK- 

AAAGGAGAGTGGTGGAGAGAGAAAAAAGAGC^GTGGGAATAGGAGCTGTGTTCCTTGGG^ 
7081 + + + + -- + + 7140 

TTTCCTCTCACCACCTCTCTCTTTTTTCTCGTCACCCTTATCCTCGA 
a KGEWWREKKEQWE*ELCSLG 
b KESGGERKKSSGNRSCVPWV- 
C RRVVEREKRAVG I GAVFLGF- 

T CTT AGGAGTAG CAGG AAGCACT ATGGG CGC GG CG T CAATAACXJCTGACGGT ACAGG CCA 

7141 -- + + + + -- + --+ 7200 

AGAATCCTCATCGTCCTTCGTGATACCCGCGCCGCAGTTATTGCGACTGCCATGTCCGGT 
a S *E*QEALWARRQ*R* RYRP 

b LRSSRKHYGRGVNNADGTGQ- 
c LGVAGSTMGAAS I TLTVQAR- 

GACAATTGCTGTCTGGTATAGTGCAACAGCAAAGCAATTTGCTGAGGGCTATAGAAGCGC 

7201 + + + + + + 7260 

CTGTTAACGACAGACCATATCACGTTGTCGTTTCGTTAAACGACTCCCGATATCTTCGCG 
a DNCCLV*CNSKAIC*GL*KR 
b TIAVWYSATAKQFAEGYRSA- 
C QLLSGIVQQQSNLLRAI EAQ- 

AACAGCATCTGTTGCAACTCACGGTCTGGGGCATTAAGCAGCTCCAGACAAGAGTCCTGG 
7261 + + + + + + 7320 

TTGTCGTAGACAACGTTGAGTGCCAGACCCCGTAATTCGTCGAGGTCTGTTCTCAGGACC 
a NSICCNSRSGALSSSRQESW 
b TASVATHGLGH *AAPDKS PG 

C QHLLQLTVWGI KQLQTRVLA- 

CTATAG AAAGAT ACCT AAAGGATCAACAGCTCCT AGGGATTTGGGG CTG CTCTGGAAAAC 
7321 -- + - + + + + + 7380 

GATATCTTTCTATGGATTTCCTAGTTGTCGAGGATCCCTAAACCCCGACGAGACCTTTTG 
a L* KDT*RINSS *GFGAALEN 

b YRKI PKGSTAPRDLGLLWKT 

C I ERYLKDQQ LLGIWGCSGKL- 

TCATCTG CACTACTGCTGTACCTTGGAACTC CAGTTGGAGTAACAAATCTCAAAAAGAGA 

7381 + + + + + + 7440 

AGTAGACGTGATGACGACATGGAACCTTGAGGTCAACCTCATTGTTTAGAGTTTTTCTCT 
a SSALLLYLGTPVGVTNLKKR 
b HLHYCCTLELQLE*QISKRD- 
C ICTTAVPWNSSWSNKSQKEI- 

TTTGGG AT AACATG AC C TGG ATGCAAT GGG AT AAAGAAAT T AG T AAT T ACACAAAC ACAG 
7441 + -- + + + + + 7500 

AAACCCTATTXjTACTGGACCTACGTTACCCTATTTCTTTAATCATTAATGTGTTTGTGTC 
a FGIT*PGCNGIKKLVITQTQ 
b LG*HDLDAMG*RN* *LHKHS 

C WDNMTWMQWDKEI SNYTNTV- 

TAT AC AGG TT GCTTGAAG AAT CG CAAAACC AG C AGG AAAGG AATG AAAAAG AT CT ATT AG 
7501 + + + + + + 7560 

ATATGTCCAACGAACTTCrrTAGCGTTTTGGTCGTCCTTTCCTTACTTTTTCTAGATAATC 
a YTGCLKNRKTSRKGMKKIY* 
b IQVA*RIAKPAGKE*KRSIS- 
C YRLLEESQNQQERNEKDLLA- 
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CATTGGACAGTTGGAAAAATCTATGGAGTTGGTTTGACATAACAAAT^ 
7561 - + + + + + + 7620 

GT AAC CT GT CAA CCTTTTTAGAT AC CT CAAC CAAACTGT ATTGTTT AACCGACACCATAT 
a HWTVGKI YGVGLT*QIGCGI 

b I GQLE KS MELV * HNK LAVVY 

C LDSWKNLW SWFDITNWLWYI- 

TAAAAATATTCATAATAATAGTAGGAGGCTTGATAGGTTTAAGAATAATTTTTC 

7621 -- + -- + - + + + + 7680 

ATTTTTATAAGTATTATTATCATCCTCCGAACTATCCAAATTCTTATTAAAAACGACACG 
a *KYS****EA**V*E*FLLC 
b KN I HNNS RRLDRFKNN FCCA 

C KI FI I IVGGLIGLRI I FAVL- 

TCTCTATAGTAAATAGAGTTAGGCAGGGATACTCACCTTTGTCGTTTCAGACCCTTACCC 
7681 - + + + - + " + + 7740 

AGAGATATCATTTATCTCAATCCGTCCCTATGAGTGGAAACAGCAAAGTCTGGGAATGGG 
a SL * * I ELGRDTHLCRFRPLP - 

b LYSK*S*AGILTFVVSDPYP- 
C SIVNRVRQGYSPLSFQTLTP- 

CGAACCOU3GGGGACCCGACAGGCTCGGAAGAATCGAAGAAGAAGGTGGAAAG 
7741 + + + + - + + 7800 

GCTTGGGTCCCCCTGGGCTGTCCX3AGCCTTCTTAGCTTCTTCTTCCACCTTTCGTTCTGT 
a RTQGDPTGSEESKKKVESKT 
b EPRGTRQARKNRRRRWKARQ- 
C NPGGPD RLGRI EEEGGKQDR- 

GGGACAGATCCATTCGATTAGTGAACGGATTCTTAGCGCTTGCCTGGGACGACCTGCGGA 
7801 + + + + + - + 7860 

CCCTGTCTAGGTAAGCTAATCACTTGCCTAAGAATCGCGAACGGACCCTGCTGGACGCCT 
a GTDPFD* *TDS*RLPGTTC.G 

b GQIHSISERILSACLGRPAE- 
C DRSI RLVNGFLALAWDDLRN- 

ACCTGTGCCTCTTCAGCTACCACCGATTGAGGGACTTCACATTAGTGGCAGCGAGGGTGG 
7861 + - + ---- + + -- + + 7920 

TGGACACGGAGAAGTCGATGGTGGCTAACTCCCTGAAGTGTAATCACCGTCGCTCCCACC 
a TCASSATTD*GTSH*WQRGW 
b PVPLQLPPIEGLHISGSEGG- 
C LCLFS YHRLRDFTLVAARVV- 

TGGAACTTCTGGGACGCAATAGTCTCAGGGGACTACAGAGAGGGTGGGAAGCCCTTAAAT 
7921 + + + + + + 7980 

ACCTTGAAGACCCTGCGTTATCAGAGTCCCCTGATGTCTCTCCCACCCTTCGGGAATTTA 
a WNFWDAIVSGDYREGGKPLN 
b GTSGTQ*SQGTTERV'GSP* I 

C ELLGRNSLRGLQRGWEALKY- 

ATCTGGGAAGTCTTGTGCAGTACTGGGGTCAGGAGCTAAAAAAGAGTACTATTAGTCTGG 
7981 -- + + + + + + 8040 

TAGACCCTTCAGAACACGTCATGACCC CAGTC CTCGATTTTTTCTCATGAT AATCAGACC 
a IWEVLCSTGVRS*KRVLLVW 
b SGKS CAVLGSGAKKEYY * SG - 

C LGSLVQYWGQELKKST I SLV- 

TTGATACCATAGCAATAGCAGTAGCTGAAGGAACAGATAGGATTATAGAATTAGTACAAG 
8041 + + + + + + 8100 

AACTATGGTATCGTTAT CGTCATCGACTTCCTTGTCTATCCTAATATCTTAAT CATGTTC 
a LI P*Q*Q*LKEQIGL*N*YK 

b *YHSNSSS*RNR*DYRISTR- 
C DTIAIAVAEGTDRIIELVQG- 

G AC TTTGT AG AG CTAT CT AC AG CAT AC CT AG AAG AAT AAG ACAGGG CTTTG AAG CAG CTT 
8101 + + + + + + 8160 

CTGAAACATCTCGATAGATGTCGTATGGATCTTCTTATTCTGTCCCGAAACTTCGTCGAA 
a DFVELSTAYLEE*DRALKQL 
b TL* SYLQHT* KNKTGL * SSF 

C LCRAI YS IPRRI RQGFEAAL- 
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Fig. 8/0 



TGCAATAAAATGGGGGGCAAGTGGTCG^ 

8161 + + + + -"- + + 8220 

ACGTTATTTTACCCCCCGTTCACCAGCTTTTCATCGTATCAACCTACCGGACGATATTCC 
a CNKMGGKWSKSSIVGWPAIR 
b AI KWGASGRKVA* LDGLL* G - 

C Q * NGGQVVE K * HSWMAC Y K G - 

GAGAGAATGAGAAGAACTGAGCCAGCAGCAGATGGGGTGGGAGCAGTATCT 
8221 + - + + + + - + 8280 

CTCTCTTACTCrTCTTGACTCGGTCGTCGTCTACCCCACCCTCGTCATAGAGCTCTGGAC 
a ERMRRTE PAADGVGAVSRD L _ - 

b RE*EELSQQQMGWEQYLETW- 
C ENEKN*ASSRWGGSSISRPG- 

GAAAAACATGGAGCAATCACGAGTAGCAATACAGCAGCTACTAATGAGGATTGTGCCTOT 

8281 + + - + + -- + + 8340 

CTTTTTGT AC CT CGTT AGTGCTCATCG TT ATGT CGTCGATGATT ACTCCTAACACGGAC C 
a EKHGAITSSNTAATNEDCAW 
b KNMEQSRVAIQQLLMR IVPG 

C KTWSNHE*QYSSY * * G L C L A - 

CTGGAAGCACAAGAGGAGGGGGAGGTGGGTTTTCCAGTCAGACCTCAGGTACCTTTAA 

8341 + - - + + + -- + + 8400 

GACCTTCGTGTTCTCCTCCCCCTCCACCCAAAAGGTCAGTCTGGAGTCCATGGAAATTCT 
a LEAQEEGEVGFPVRPQVPLR 
b WKHKRRGRWVFQSDLRYL* D 

C GSTRGGGGGFSSQTSGT FKT- 

CCAATGACTTACAAGGGAGCTGTAGATCTTAGCTTCTTTTTAAAAGAAAAGGGGGGACTG 
8401 + + + + + + 8460 

GGTTACTGAATGTTCCCTCGACATCTAGAATCGAAGAAAAATTTTCTTTTCCCCCCTGAC 
a PMTYKGAVDLSFFLKEKGGL 
b Q*LTREL* ILASF*KKRGDW- 

C NDLQGSCRS * LLFKRKGGTG- 

GAAGGGTTAATTTACTCTAAGAAAAGGCAAGAGATCCTTGATTTGTGGGTCTATCACACA 
8461 + + + + + '-■ -+ 8520 

CTTCCCAATTAAATGAGATTCTTTTCCGTTCTCTAGGAACTAAACACCCAGATAGTGTGT 
a EGLIYSKKRQEILDLWVYHT 
b KG* FTLRKGKRSLICGS I TH- 

C RVNLL* EKARDP* FVGLSHT- 

CAAGGCTACTTCCCTGATTGGCACAACTACACACCAGGACCAGGGGTCAGATTCCCACTG 

B521 + + + + + + 8580 

GTTCCGATGAAGGGACTAACCGTGTTGATGTGTGGTCCTGGTCCCCAGTCTAAGGGTGAC 
a QGYFPDWHNYTPGPGVRFPL 
b KATSLIGTTTHQDQGSDSH* 
C RLLP*LAQLHTRTRGQI PTD- 

ACTTTTGGGTGGTGCTT CAAGCTAGT AC CAGTTGACCCAAGGGAAGTAG AAGAGG CCAAC 

8581 + + + + -- + + 8640 

TGAAAACCCACCACGAAGTTCGATCATGGTCAACTGGGTTCCCTTCATCrTCTCCGGTTG 
a TFGWCFKLVPVDPREVEEAN 
b LLGGASS* YQLTQGK* KRPT- 

C FWVVLQAS.TS*PKGSRRGQR- 

GAGGGAGAAGACAACTGCTTGCTACACCCTGTGTGCCAGCATGGAATGGAGGATGATCAC 

8641 + + + + + + 8700 

CTCCCTCTTCTGTTGACGAACGATGTGGGACACACGGTCGTACCTTACCTCCTACTAGTG 
a EGEDNCLLHPVCQHGMEDDH 
b REKTTACYTLCASMEWRMI T 

C GRRQLLATPCVPAWNGG * SQ- 

AGAGAAGTATTAAAGTGGAAGTTTGACAGTCAACTAGCACACAGACACAGGGCCCGCGAA 

8701 + + + + - + -+ 8760 

T CTCTTCATAATTTCACCTTCAAACTGTCAGTTGATCGTGTGTCTGTGTC C CGGGCGCTT 
a REVLKWKFDSQLAHRHRARE 
b EKY * SGSLTV N * HTDTGPAN 

C RS I KVEV* QSTSTQTQG PRT- 
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Fig. 8/p 



CTACATCCGGAGTTTTACAAAGACTGCT^ 
8761 + + + + + + 8820 

GATGTAGGCCTCAAAATGTTTCTGACGACrrcTGTCT^ 
a LHPEFYKDC*HRRDFPRGLS 
b YIRSFTKTADTEGTFRGDFP- 
c TSGVLQRLLTQKGLSAGTFH- 

ACTGGGGCGTTCTAGGAGGTGTGGTCTGGCGGGACTGGGAG 

8821 + + + + + + 8880 

TGACC CC G CAAGAT C CT CC ACAC CAGAC CGCC CTGAC C CTCAC CAGTTGGGAG TTT ACGA 
a TGAF* EVWSGGTGSGQPSNA 

b LGRSRRCGLAGLGVVNPQML 
C WGVLGGVV WRDWEWSTLKCC- 

GCATATAAGCAGCTGCTTTTCGCCTGTACTGGGTCTCTCTAGTCAGACCAGA 

8881 + + + + + + 8940 

CGTATATTCGTCGACGAAAAGCGGACATGACCCAGAGAGATCAGTCTGGTCTAGACTCGG 
a AYKQLLFACTGSL*SDQI*A 
b HISSCFSPVLGLSSQTRSEP- 
C I *AAAFRLYWVSLVRPDLS L- 

TGGG AG CTCTCTGG C TAACT AGGGAAC CCACTGCTT AAGC CTCAAT AAAG CTTGCCTTGA 
8941 + + - + -- + + + 9000 

ACCCTCGAGAGACCGATTGATCCCTTGGGTGACGAATTCGGAGTTATTTCGAACGGAACT 
a WELSG*LGNPLLKPQ*SLP* 
b GSSLAN* GTHCLSLNKACLE 

C GALWLTRE PTA*AS I KLALR- 

GGGGCTAGAGCGG CCG CCACCGCGGTGGAGCTC CAGCTTTTGTTCCCTTTAGTGAGGGTT 
9001 + + + + + + 9060 

CCCCGATCTCGCCGGCGGTGGCGCCACCTCGAGGTCGAAAACAAGGGAAATCACTCCCAA 
a GARAAATAVELQLLFP LVRV 

b GLERPPPRWSSSFCSL**GL- 
C G* SGRHRGGAPAFVPF S EG * - 

AATTGCGCGCTGGCGATC 
9061 + 9078 

TTAACGCGCGACCG CTAG 
a NCALAI- 
b I A R W R - 

c L R A .G D 
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<110> Geneart GmbH 

5 

<120> Das Genom des HIV-1 Intersubtyps (C/B') und seine 
Anwendungen 

<130> WAG-001 PCT 

10 

<140> XX 

<141> 2000-11-16 

<150> DE 199 55 089.1 
15 <151> 1999-11-16 

<160> 3 

<170> Patentln Ver. 2.1 

20 

<210> 1 
<211> 9078 
<212> DNA 

<213> Human immunodeficiency virus 

25 

<400> 1 

aatctctagc agtggcgccc 

tctcgacgca ggactcggct 

tgagtacgcc aattatattt 
30 gtcaatatta agagggggaa 

aaagaaacac tatatgctaa 

acttaaccct ggccttttag 

atcagctctt cagacaggaa 

ctattgtgta catacagaga 
35 ggaagaacaa aacaaaattc 

cagtcaaaat tatcctatag 

acctagaact ttaaatgcat 

aatacccatg ttttcagcgt 

aaacacagtg gggggacatc 
40 ggctgcagaa tgggatagat 

gagagaacca aggggaagtg 

atggatgacg agtaacccac 

gggattaaat aaaatagtaa 



gaacagggac 


ttgaaagcga 


aagtaagacc 


agaggagatc 


60 


tgctgaagtg 


cactcggcaa 


gaggcgagag 


cggcgactgg 


120 


gactagcgga 


ggctagaagg 


agagagatgg 


gtgcgagagc 


180 


aattagataa 


atgggaaaaa 


attaggttaa 


ggccaggggg 


240 


aacacctagt 


atgggcaagc 


agggagctgg 


aaagatttgc 


300 


agacatcaga 


aggctgtaaa 


caaataatga 


aacagctaca 


360 


cagaggaact 


tagatcatta 


ttcaacacag 


tagcaactcc 


420 


tagatgtacg 


agacaccaga 


gaagccttag 


acaagataga 


4B0 


agcaaaaaac 


acagcaggca 


aaggaggctg 


acgggaaggt 


540 


tacagaatct 


ccaagggcaa 


atggtacatc 


agcccatatc 


600 


gggtaaaagt 


ggtagaagag 


aaggctttta 


gcccagaagt 


660 


tatcagaagg 


agccacccca 


caagatttaa 


acaccatgct 


720 


aagcagctat 


gcaaatatta 


aaagatacca 


tcaatgaaga 


780 


tacatccagt 


acatgcaggg 


cctattgcac 


caggccaaat 


840 


acatagcagg 


aactactagt 


aacctacagg 


aacaaatagc 


900 


ctgttccagt 


aggagacatc 


tataaaagat 


ggataattct 


960 


gaatgtatag 


ccctaccagc 


attctggaca 


taaaacaagg 


1020 
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gccaaaggaa ccctttagag actatgtaga ccggttcttt aaaactttaa gagcggaaca 1080 
agctacgcaa ggtgtaaaaa attggatgac agacaccttg ttggtccaaa atgcgaaccc 1140 
agattgtaag accattttaa gagcattagg accaggggct tcaatagaag aaatgatgac 1200 
agcatgtcag ggagtgggag gacctagcca taaagcaaaa gtgttggccg aggcaatgag 1260 
5 ccaaacaaac agtgccatac tgatgcagag aagcaatttt aaaggctcta aaagaattgt 1320 
taaatgtttc aactgtggca aggaagggca catagccaga aattgcaggg cccctaggaa 1380 
aaagggctgt tggaaatgtg gaaaagaagg acaccaaatg aaagattgta ctgagagaca 1440 
ggccaatttt ttagggaaaa tctggccctc ccacaaggga gggccaggga attttcttca 1500 
gaacagacca gagccaacag. ccccaccaga ggagagcttc aggtttgggg aagagacaac 1560 

10 aactccatct cagaagcagg agccaataga caaggaacta tatcctttaa cttccctcaa 1620 
atcactcttt ggcaacgacc cctcgtcaca ataaagatag gggggcaatt aaaggaagct 1680 
ctattagata caggagcagg tgatacagta ttagaagacc tgaatttgcc agggaaatgg 1740 
aaaccaaaaa tgataggggg aattggaggt tttatcaaag taagacagta tgaacagata 1800 
cccatagaaa tttgcggaca caaagctata ggtacagtat tagtaggacc tacacctgtc I860 

15 - aacataattg gaagaaatct gttgactcag cttggttgca ctttaaattt tccaatcagt 1920 
cccattgaaa ctgtaccagt aaaattaaag ccaggaatgg atggcccaaa ggttaaacaa 1980 
tggccattga cagaagagaa aataaaagca ttaacagcaa tttgtgatga aatggagaaa 2040 
gaaggaaaaa ttacaaaaat tgggcctgaa aatccatata acactccaat atttgccata 2100 
aaaaagaagg acagtactaa gtggagaaag ttagtagatt tcagggaact caataaaaga 2160 

20 actcaagatt tttgggaagt tcaattagga ataccacacc cagcagggtt aaaaaagaaa 2220 
aaatcagtga cagtactgga tgtgggggat gcatattttt caattccttt atatgaagac 2280 
ttcaggaagt atactgcatt caccatacct agtagaaaca atgaaacacc agggattagg 2340 
tatcagtaca atgtacttcc acagggatgg aaaggatcac tagcaatatt ccaaagtagc 2400 
atgacaaaaa ccttagagcc ttttagaaaa caaaatccag gcatagttat ctatcaatac 2460 

25 atggatgatt tgtatgtagg atctgactta gagatagggc agcatagaac aaaaatagag 2520 
gaactgagac aacatttgtt gaggtgggga tttaccacac cagacaagaa acattagaaa 2580 
gaacctccat ttctttggat ggggtatgaa ctccatcctg acaaatggac agtacagcct 2640 
acacagctgc cagaaaaaga tagctggact gtcaatgata tacaaaagtt agtgggaaaa 2700 
ttaaactggg caagtcagat ttatcctgga attaaagtaa ggcaactttg taaactcctt 2760 

30 aggggggcca aagcactaac agacatagta ccactaactg aagaagcaga attagaattg 2 820 
gcagaaaaca gggaaattct aaaagaacca gtacatggag tatactatga cccatcaaaa 2 880 
gacttgatag ctgaaataca gaaacagggg caggaacaat ggacatatca aatttaccaa 2 940 
gaaccattca aaaatctaaa aacagggaag tatgcaaaaa tgaggactgc ccacactaat 3000 
gatgtaaaac aattaacaga ggctgtgcag aaaatagcca tggaaggcat agtaatatgg 3 060 

35 ggaaaaactc ctaaatttag attacccatc caaaaagaaa catgggagac atggtggaca 3120 
gactattggc aagccacctg gattcctgag tgggaatttg ttaatacccc tcccttagta 3180 
aaattatggt accagctgga aaaagatccc atagtaggag tagaaacttt ctatgtagat 324 0 
ggagcagcta atagggagac taaaatagga aaagcagggt atgttactga cagaggaagg 3300 
aagaaaattg tttctctaac tgaaacaaca aatcagaaga ctgaattgca agcaatttgt 3 360 

40 atagctttgc aagattcagg atcagaagta aacatagtaa cagattcaca gtatgcatta 3420 
gggatcattc aagcacaacc agataagagt gaatcagagt tagttaacca aataatagaa 34 80 
caattaatga aaaaggaaag agtctacctg tcatgggtac cagcacataa aggaattgga 3540 
ggaaatgaac aagtagataa attagtaagt agtggaatca. ggaaagtgct atttctagat 3600 
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ggaatagata aagctcaaga agagcatgaa 
agtgacttta atctgccacc catagtagca 
cagctaaaag gagaagccat gcatggacaa 
gattgtacac atttagaagg aaaaatcatc 
5 atggaagcag aggttatccc agcagaaaca 
ttagcaggaa gatggccagt caaagtaata 
actgcagtta aggcagcctg ttggtgggca 
agtccccaaa gtcagggagt agtagaagcc 
caggtaagag atcaagctga gcaccttaag 

10 aattttaaaa gaaaaggggg gattgggggg 
atagcaacag acatacaaac taaagaatta 
cgggtttatt acagagacag cagagacccc 
aaaggtgaag gggcagtaat aatacaagat 
aaagcaaaaa tcattaagga ctatggaaaa 

15 agacaggatg aagattagaa catggaatag 
gagagctaat ggatggtttt acagacatca 
agaagtacac atcccattag gaaaggctaa 
gacaggagaa agagatcggc atttgggtca 
atataccaca caaatagaac ctggcctggc 

20 ttgttttgca gactctgata taaggaaagc 
tgactatcaa gcaggacata ataataaggt 
attgataaaa ccaaaaaaga taaagccacc 
tagatggaac aatccccagg agatcagggg 
. ctagagcttc tagaggagct caagcaggaa 

25 catagcttag gacaacatat ctatgaaaca 
ataataagaa ttctgcaaca actgctgttt 
agaataggca ttttgagaca gagaagaaca 
gccttgggag catccaggaa gtcagcctaa 
gtgctgcttt cattgccaag tttgtttcac 

30 gaagaagcga agacagcgac gaagcgctca 
atcaaagcag taagtagtaa atgtaatgca 
agtagtagca acaataatag caatagttgt 
aatattaaga cagaaaaaaa tagacaggtt 
cagtggcaat gagggtgacg gggatcagga 

35 ccatgctcct tgggatgttg atgatcagta 
attatggggt acctgtatgg aaaggggcaa 
aagcatatga tacagaggta cataatgttt 
ccaacccaca agaaatggtt ttggaaaatg 
aaatggtaaa tcagatgcag gaagatgtaa 

40 gtgtaaagtt gaccccactc tgtgtcactt 
atgataccta ccatgagacc taccatgaga 
atgcaaccac agtagtaaga gataggaagc 
atatagtacc acttactaag aagaactata 



aagtatcaca gcaattggag agcaatggct 3660 
aaagaaatag tggctagctg tgatcaatgt 3720 
gtagactgta gtccagggat atggcaatta 3780 
ctggtagcag tccatgtagc cagtggctac 3840 
ggacaagaga cagcatactt tatactaaaa 3900 
catacagata atggtagtaa tttcaccagt 3 960 
ggtatccaac aggaatttgg aattccctac 4020 
atgaataaag aattaaagaa aattataggg 4080 
acagcagtac taatggcagt attcattcac 4140 
tacagtgcag gggaaagaat aatagatata 4200 
caaaaacaga ttacaaaaat tcaaaatttt 4260 
agttggaaag gaccagccaa actactctgg 4320 
aatagtgaca taaaggtagt accaaggagg 4 3 80 
cagatggcag gtgctgattg tgtggcaggt 4440 
tttagtaaaa caccatatgt atgtttcaag 4500 
ttatgacagc agacatccaa aagtaagttc 4560 
attagtaata aaaacatatt gggggttgca 4620 
tggagtctcc atagaatgga gattgagaag 4680 
agaccagcta attcatttgt attattttga 4740 
catattagga cacatagtta ttcctaggtg 4800 
aggatctcta caatacttgg cactgacagc 4860 
tctgcctagt atcaagaaat tagtagagga 4 920 
ccgcagaggg aaccacacaa tgaatggaca 4 980 
gctgttagac actttcctag accatggctt 5040 
tatggggata cttgggcagg agtggaagcc 5100 
attcatttca gaattgggtg tcagcatagc 5160 
agaaatggag ccagtaaatc ataaattaga 5220 
gactgcttgt aacagttgct attgtaaaaa 5280 
gaaaaaaggc ttaggcatct tctatggcag 5340 
tcgaagcagt gaggatcatc aaaatcctat 5400 
agctttaacc attttagcaa tagtagcctt 5460 
gtggaccata gtattcatag aatataggaa 5520 
aattgataga ataagagaaa gagcagaaga 5580 
agaattatcg gcatttatgg agatggggca 564 0 
gtgctgtagg aaacttgtgg gtcacagtct 5700 
ccaccacttt attttgtgca tcagatgcta 5760 
gggctacaca tgcctgtgta cccgcagacc 5820 
taacagaaaa ttttaacatg tggaaaaatg 5880 
tcagtttatg ggatcaaagc ctaaaaccat 5940 
tagaatgtag aaatgttagc agtaatagta 6000 
gcatgaagga aatgaaaaat tgctctttca 6060 
agacagtgta tgcacttttt tatagacttg 6120 
gtgagaattc tagtgagtat tatagattaa 6180 
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taaattgtaa tacctcagcc ataacacaag 
ctatacacta ttgcactcca gctggttatg 
atgggacagg accatgccat aatgttagca 
tggtatcaac tcaactactg ttaaatggta 
S ctgaaaatct gacaaacaat gtcaaaacaa 
ttgtatgtac aagacccggc aataatacaa 
cattctatgc aacaggagac ataataggag 
aagataaatg gaatgaaact ttacaaaggg 
ataaaacaat aaaatttgca tcatcctcag 

10 ttaattgtag aggagaattt ttctattgta 
cgcctaatgg tacaaaaagt aattcaagct 
aaattataaa tatgtggcag gaggtaggac 
acataacatg taaatcaaat atcacaggac 
caaatgatac agagacattc agacctggag 

15 aattatataa atataaagtg gtagaaatta 
aaaggagagt ggtggagaga gaaaaaagag 
tcttaggagt agcaggaagc actatgggcg 
gacaattgct gtctggtata gtgcaacagc 
aacagcatct gttgcaactc acggtctggg 

20 ctatagaaag atacctaaag gatcaacagc 
tcatctgcac tactgctgta ccttggaact 
tttgggataa catgacctgg atgcaatggg 
tatacaggtt gcttgaagaa tcgcaaaacc 
cattggacag ttggaaaaat ctatggagtt 

25 taaaaatatt cataataata gtaggaggct 
tctctatagt aaatagagtt aggcagggat 
cgaacccagg gggacccgac aggctcggaa 
gggacagatc cattcgatta gtgaacggat 
acctgtgcct cttcagctac caccgattga 

30 tggaacttct gggacgcaat agtctcaggg 
atctgggaag tcttgtgcag tactggggtc 
ttgataccat agcaatagca gtagctgaag 
gactttgtag agctatctac agcataccta 
tgcaataaaa tggggggcaa gtggtcgaaa 

35 gagagaatga gaagaactga gccagcagca 
gaaaaacatg gagcaatcac gagtagcaat 
ctggaagcac aagaggaggg ggaggtgggt 
ccaatgactt acaagggagc tgtagatctt 
gaagggttaa tttactctaa gaaaaggcaa 

40 caaggctact tccctgattg gcacaactac 
acttttgggt ggtgcttcaa gctagtacca 
gagggagaag acaactgctt gctacaccct 
agagaagtat' taaagtggaa gtttgacagt 



cctgtccaaa ggtcactttt gatccaattc 6240 
caattctaaa gtgtaatgat aagatattca 6300 
cagtacaatg tacacatggg attaagccag 6360 
gcctagcaga aggagaaata ataattagat 6420 
taatagtaca tcttaatcaa tctgtagaaa 6480 
gaaaaagtat aaggatagga ccaggacaaa 6540 
acataagaca agcacattgt aacattagtg 6600 
taagtaaaaa attagcagaa cacttccaga 6660 
gaggggacct agaagttaca acacatagct 6720 
atacatcagg cctgtttaat ggtgcataca 6780 
caatcatcac aatcccatgc agaataaagc 6840 
gagcaatgta tgcccctccc ataaaaggaa 6900 
tactattggt acgtgatgga ggaacagagc 6960 
gaggagatat gaggaacaat tggagaagtg 7020 
agccattggg agtagcaccc actacaacaa 7080 
cagtgggaat aggagctgtg ttccttgggt 7140 
cggcgtcaat aacgctgacg gtacaggcca 7200 
aaagcaattt gctgagggct atagaagcgc 7260 
gcattaagca gctccagaca agagtcctgg 732 0 
tcctagggat ttggggctgc tctggaaaac 7380 
ccagttggag taacaaatct caaaaagaga 7440 
ataaagaaat tagtaattac acaaacacag 7500 
agcaggaaag gaatgaaaaa gatctattag 7560 
ggtttgacat aacaaattgg ctgtggtata 7620 
tgataggttt aagaataatt tttgctgtgc 7680 
actcaccttt gtcgtttcag acccttaccc 7740 
gaatcgaaga agaaggtgga aagcaagaca 7 800 
tcttagcgct tgcctgggac gacctgcgga 7860 
gggacttcac attagtggca gcgagggtgg 7 920 
gactacagag agggtgggaa gcccttaaat 7 980 
aggagctaaa aaagagtact attagtctgg 8040 
gaacagatag gattatagaa ttagtacaag 8100 
gaagaataag acagggcttt gaagcagctt 8160 
agtagcatag ttggatggcc tgctataagg 8220 
gatggggtgg gagcagtatc tcgagacctg 8280 
acagcagcta ctaatgagga ttgtgcctgg 8340 
tttccagtca gacctcaggt acctttaaga 8400 
agcttctttt taaaagaaaa ggggggactg 8460 
gagatccttg atttgtgggt ctatcacaca 8520 
acaccaggac caggggtcag attcccactg 8580 
gttgacccaa gggaagtaga agaggccaac 8640 
gtgtgccagc atggaatgga ggatgatcac 8700 
caactagcac acagacacag ggcccgcgaa 8760 
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ctacatccgg agttttacaa agactgctga cacagaaggg actttccgcg gggactttcc 8820 
actggggcgt tctaggaggt gtggtctggc gggactggga gtggtcaacc ctcaaatgct 8880 
gcatataagc agctgctttt cgcctgtact gggtctctct agtcagacca gatctgagcc 8940 
tgggagctct ctggctaact agggaaccca ctgcttaagc ctcaataaag cttgccttga 9000 
ggggctagag cggccgccac cgcggtggag ctccagcttt tgttcccttt agtgagggtt 9060 
aattgcgcgc tggcgatc 9078 



<210> 2 
10 <211> 4288 
<212> DNA 

<213> Human immunodeficiency virus 
<400> 2 

15 gctaggtacc taatgggcgc cagggccagc atcctgaggg gcggcaagct ggacaagtgg 60 
gagaagatca ggctgaggcc cggcggcaag aagcactaca tgctgaagca cctggtgtgg 120 
gccagcaggg agctggagag gttcgccctg aaccccggcc tgctggagac cagcgagggc 180 
tgcaagcaga tcatgaagca gctgcagagc gccctgcaga ccggcaccga ggagctgagg 240 
agcctgttca acaccgtggc caccccctac tgcgtgcaca ccgagatcga cgtgagggac 300 

20 accagggagg ccctggacaa gatcgaggag gagcagaaca agatccagca gaagacccag 360 
caggccaagg aggccgacgg caaggtgagc cagaactacc ccatcgtgca gaacctgcag 420 
ggccagatgg tgcaccagcc catcagcccc aggaccctga atgcatgggt gaaggtggtg 4 80 
gaggagaagg ccttcagccc cgaggtgatc cccatgttca gcgccctgag cgagggcgcc 54 0 
accccccagg acctgaacac catgctgaac accgtgggcg gccaccaggc cgccatgcag 600 

25 atcctgaagg acaccatcaa cgaggaggcc gccgagtggg acaggctgca ccccgtgcac 660 
gccggcccca tcgcccccgg ccagatgagg gagcccaggg gcagcgacat cgccggcacc 720 
accagcaacc tgcaggagca gatcgcctgg atgaccagca acccccccgt gcccgtgggc 780 
gacatctaca agaggtggat catcctgggt ttaaacaaga tcgtgaggat gtacagcccc 84 0 
accagcatcc tggacatcaa gcagggcccc aaggagccct tcagggacta cgtcgacagg 900 

30 ttcttcaaga ccctgagggc ggagcaggcc acccagggcg tgaagaactg gatgaccgac 960 
accctgctgg tgcagaacgc caaccccgac tgcaagacca tcctgagggc cctgggcccc 1020 
ggcgccagca tcgaggagat gatgaccgcc tgccagggcg tgggcggccc cagccacaag 1080 
gccaaggtgc tggccgaggc catgagccag accaacagcg ccatcctgat gcagaggagc 1140 
aacttcaagg gcagcaagag gatcgtgaag tgcttcaact gcggcaagga gggccacatc 1200 

35 gccaggaact gcagggcccc caggaagaag ggctgctgga agtgcggcaa ggagggccac 1260 
cagatgaagg actgcaccga gaggcaggcc aacttcctgg gcaagatctg gcccagccac 1320 
aagggcggcc ccggcaactt cctgcagaac aggcccgagc ccaccgcccc ccccgaggag 13 80 
agcttcaggt tcgaggagga gaccaccacc cccagccaga agcaggagcc catcgacaag 1440 
gagctgtacc ccctgaccag cctgaagagc ctgttcggca acgaccccag cagccaggaa 1500 

40 ttcttcaggg agaacctggc cctgccccag ggcagggcca gggagttcag cagcgagcag 1560 
accagggcca acagccccac caggggcgag ctgcaggtgt ggggcaggga caacaacagc 1620 
atcagcgagg ccggcgccaa caggcagggc accatcagct tcaacttccc ccagatcacc 1680 
ctgtggcaga ggcccctggt gaccatcaag atcggcggcc agctgaagga ggccctgctg 1740 
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aacaccggcg ccggcgacac cgtgctggag 
aagatgatcg gcggcatcgg cggcttcatc 
gagatctgcg gccacaaggc catcggcacc 
atcggcagga acctgctgac ccagctgggc 
5 gagaccgtgc ccgtgaagct gaagcccggc 
ctgaccgagg agaagatcaa ggccctgacc 
aagatcacca agatcggccc cgagaacccc 
aaggacagca ccaagtggag gaagctggtg 
gacttctggg aggtgcagct gggcatcccc 

10 gtgaccgtgc tggacgtggg cgacgcctac 
aagtacaccg ccttcaccat ccccagcagg 
tacaacgtgc tgccccaggg ctggaagggc 
atcgaggagc tgatctacag caagaagagg 
acccagggct acttccccga ctggcacaac 

15 ctgaccttcg gctggtgctt caagctggtg 
aacgagggcg aggacaactg cctgctgcac 
cacagggagg tgctgaagtg gaagttcgac 
gagctgcacc ccgagttcta caaggactgc 
gtgggctggc ccgccatcag ggagaggatg 

20 ggcgccgtga gcagggacct ggagaagcac 
accaacgagg actgcgcctg gctggaggcc 
aggccccagg tgcccctgag gcccatgacc 
ctgaaggaga agggcggcct ggagggcctg 
acccccgaca agaagcacca gaaggagccc 

25 cccgacaagt ggaccgtgca gcccacccag 
gacatccaga agctggtggg caagctgaac 
gtgaggcagc tgtgcaagct gctgaggggc 
accgaggagg ccgagctgga gctggccgag 
ggcgtgtact acgaccccag caaggacctg 

30 cagtggacct accagatcta ccaggagccc 
aagatgagga ccgcccacac caacgacgtg 
gccatggagg gcatcgtgat ctggggcaag 
gagacctggg agacctggtg gaccgactac 
ttcgtgaaca cccctcccct ggtgaagctg 

35 ggcgtggaga ccttctacgt ggacggcgcc 
ggctacgtga ccgacagggg caggaagaag 
aagaccgagc tgcaggccat ctgcatcgcc 
gtgaccgaca gccagtacgc cctgggcatc 
gagctggtga accagatcat cgagcagctg 

40 gtgcccgccc acaagggcat cggcggcaac 
atcaggaagg tgctgaagac cctggagccc 
taccagtaca tggacgacct gtacgtgggc 
aagtaaagat ctctcgagga gctcaagc 



gacctgaacc 


tgcccggcaa 


gtggaagccc 


1800 


aaggtgaggc 


agtacgagca gatccccatc 


1860 


gtgctggtgg 


gccccacccc 


cgtgaacatc 


1920 


tgcaccctga 


acttccccat 


cagccccatc 


1980 


atggacggcc 


ccaaggtgaa 


gcagtggccc 


2040 


gccatctgcg 


acgagatgga 


gaaggagggc 


2100 


tacaacaccc 


ccatcttcgc 


catcaagaag 


2160 


gacttcaggg 


agctgaacaa 


gaggacccag 


2220 


caccccgccg 


gcctgaagaa 


gaagaagagc 


2280 


ttcagcatcc 


ccctgtacga 


ggacttcagg 


2340 


aacaacgaga 


cccccggcat 


cagctaccag 


2400 


agcctggcca 


tcttccagag 


cagcatgacc 


2460 


caggagatcc 


tggacctgtg 


ggtgtaccac 


2520 


tacacccccg 


gccccggcgt 


gaggttcccc 


2580 


cccgtggacc 


ccagggaggt 


ggaggaggcc 


2640 


cccgtgtgcc 


agcacggcat 


ggaggacgac 


2700 


agccagctgg 


cccacaggca 


cagggccagg 


2760 


atgggcggca 


agtggagcaa 


gagcagcatc 


2820 


aggaggaccg 


agcccgccgc 


cgacggcgtg 


2880 


ggcgccatca 


ccagcagcaa 


caccgccgcc 


2940 


caggaggagg 


gcgaggtggg 


cttccccgtg 


3000 


tacaagggcg 


ccgtggacct 


gagcttcttc 


3060 


aggcagcacc 


tgctgaggtg 


gggcttcacc 


3120 


cccttcctgt 


ggatgggcta 


cgagctgcac 


3180 


ctgcccgaga 


aggacagctg 


gaccgtgaac 


3240 


tgggccagcc 


agatctaccc 


cggcatcaag 


3300 


gccaaggccc 


tgaccgacat 


cgtgcccctg 


3360 


aacagggaga 


tcctgaagga 


gcccgtgcac 


3420 


atcgccgaga 


tccagaagca 


gggccaggag 


3480 


ttcaagaacc 


tgaagaccgg 


caagtacgcc 


3540 


aagcagctga 


ccgaggccgt 


gcagaagatc 


3600 


acccccaagt 


tcaggctgcc 


catccagaag 


3660 


tggcaggcca 


cctggatccc 


cgagtgggag 


3720 


tggtatcagc 


tggagaagga 


ccccatcgtg 


3780 


gccaacaggg 


agaccaagat 


cggcaaggcc 


3840 


atcgtgagcc 


tgaccgagac 


caccaaccag 


3900 


ctgcaggaca 


gcggcagcga 


ggtgaacatc 


3960 


atccaggccc 


agcccgacaa 


gagcgagagc 


4020 


atgaagaagg 


agagggtgta 


cctgagctgg 


4080 


gagcaggtgg 


acaagctggt 


gagcagcggc 


4140 


ttcaggaagc 


agaaccccgg 


catcgtgatc 


4200 


agcgacctgg 


agatcggcca 


gcacaggacc 


4260 
4288 
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<210> 3 
<211> 2605 
<212> DNA 

<213> Human immunodeficiency virus 



<400> 3 

gcggcgggta ccgaattcgc cgccagcatg 
ctgctgctgc tgccccaggc ccaggccgtg 
gtgcccgtgt ggaagggcgc caccaccacc 
gacaccgagg tgcacaacgt gtgggccacc 
caggagatgg tgctggagaa cgtgaccgag 
aaccagatgc aggaggacgt catcagcctg 
ctgacccccc tgtgcgtgac cctggagtgc 
taccacgaga cctaccacga gagcatgaag 
accgtggtga gggacaggaa gcagaccgtg 
cccctgacca agaagaacta cagcgagaac 
aacaccagcg ccatcaccca ggcctgcccc 
tactgcaccc ccgccggcta cgccatcctg 
ggcccctgcc acaacgtgag caccgtgcag 
acccagctgc tgctgaacgg cagcctggcc 
ctgaccaaca acgtgaaaac catcatcgtg 
accaggcccg gcaacaacac caggaagagc 
gccaccggcg acatcatcgg cgacatcagg 
tggaacgaga ccctgcagag ggtgagcaag 
atcaagttcg ccagcagcag cggcggcgac 
aggggcgagt tcttctactg caacaccagc 
ggcaccaaga gcaacagcag cagcatcatc 
aacatgtggc aggaggtggg cagggccatg 
tgcaagagca acatcaccgg cctgctgctg 
accgagacct tcaggcccgg cggcggcgac 
aagtacaagg tggtggagat caagcccctg 
gtggtggaga gggagaagag ggccgtgggc 
gtggccggca gcaccatggg cgccgccagc 
ctgagcggca tcgtgcagca gcagagcaac 
ctgctgcagc tgaccgtgtg gggcatcaag 
aggtacctga aggaccagca gctgctgggc 
accaccgccg tgccctggaa cagcagctgg 
aacatgacct ggatgcagtg ggacaaggag 
ctgctggagg agagccagaa ccagcaggag 
agctggaaga acctgtggag ctggttcgac 
ttcatcatca tcgtgggcgg cctgatcggc 



gacagggcca agctgctgct 


gctgctgctg 


60 


ggcaacctgt gggtgaccgt 


gtactacggc 


120 


ctgttctgcg 


ccagcgacgc 


caaggcctac 


180 


cacgcctgcg 


tgcccgccga 


ccccaacccc 


240 


aacttcaaca 


tgtggaagaa 


cgagatggtg 


300 


tgggaccaga 


gcctgaagcc 


ctgcgtgaag 


360 


aggaacgtga 


gcagcaacag 


caacgacacc 


420 


gagatgaaga 


actgcagctt 


caacgccacc 


480 


tacgccctgt 


tctacaggct 


ggacatcgtg 


540 


agcagcgagt 


actacaggct 


gatcaactgc 


600 


aaggtgacct 


tcgaccccat 


ccccatccac 


660 


aagtgcaacg 


acaagatctt 


caacggcacc 


720 


tgcacccacg 


gcatcaagcc 


cgtggtgagc 


780 


gagggcgaga 


tcatcatcag 


gagcgagaac 


840 


cacctgaacc 


agagcgtgga 


gatcgtgtgc 


900 


atcaggatcg 


gccccggcca 


gaccttctac 


960 


caggcccact 


gcaacatcag 


cgaggacaag 


1020 


aagcttgccg 


agcacttcca 


gaacaagacc 


1080 


ctggaggtga 


ccacccacag 


cttcaactgc 


1140 


ggcctgttca 


acggcgccta 


cacccccaac 


1200 


accatcccct 


gcaggatcaa 


gcagatcatc 


1260 


tacgcccctc 


ccatcaaggg 


caacatcacc 


1320 


gtgagggacg 


gcggcaccga 


gcccaacgac 


1380 


atgaggaaca 


actggaggag 


cgagctgtac 


1440 


ggcgtggccc 


ccaccaccac 


caagaggagg 


1500 


atcggcgccg 


tgttcctggg 


cttcctgggc 


1560 


atcaccctga 


ccgtgcaggc 


caggcagctg 


1620 


ctgctgaggg 


ccatcgaggc 


ccagcagcac 


1680 


cagctgcaga 


ccagggtgct 


ggccatcgag 


1740 


atctggggct 


gcagcggcaa 


gctgatctgc 


1800 


agcaacaaga 


gccagaagga 


gatctgggac 


1860 


atcagcaact 


acaccaacac 


cgtgtacagg 


1920 


aggaacgaga 


aggacctgct 


ggccctggac 


1980 


atcaccaact 


ggctgtggta 


catcaagatc 


2040 


ctgaggatca 


tcttcgccgt 


gctgagcatc 


2100 



WO 01/36614 



8 



PCT/DE00/04073 



gtgaacaggg tgaggcaggg ctacagcccc 
ggcggccccg acaggctggg caggatcgag 
agcatcaggc tggtgaacgg cttcctggcc 
ctgttcagct accacaggct gagggacttc 
ctgggcagga acagcctgag gggcctgcag 
agcctggtgc agtactgggg ccaggagctg 
atcgccatcg ccgtggccga gggcaccgac 
agggccatct acagcatccc caggaggatc 
taaagatctc tcgaggagct caagc 



ctgagcttcc agaccctgac ccccaacccc 2160 
gaggagggcg gcaagcagga cagggacagg 2220 
ctggcctggg acgacctgag gaacctgtgc 2280 
accctggtgg ccgccagggt ggtggagctg 2340 
aggggctggg aggccctgaa gtacctgggc 2400 
aagaagagca ccatcagcct ggtggacacc 2460 
aggatcatcg agctggtgca gggcctgtgc 2520 
aggcagggct tcgaggccgc cctgcagtga 2580 

2605 



